6大核心模块(Modules)
示例
Gcs Directory

LangChain

GCS目录

这篇文章介绍了如何从Google Cloud Storage (GCS)目录中加载文档对象。

from langchain.document_loaders import GCSDirectoryLoader

安装google-cloud-storage:

# !pip install google-cloud-storage

指定项目名,存储桶(bucket):

loader = GCSDirectoryLoader(project_name="aist", bucket="testing-hwc")

加载数据:

loader.load()

如果使用End user credentials认证,可能会收到警告信息,建议使用Service account认证。以下是输出结果:

[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpz37njh7u/fake.docx'}, lookup_index=0)]

指定前缀,更精细化地控制加载的文件:

loader = GCSDirectoryLoader(project_name="aist", bucket="testing-hwc", prefix="fake")

重新加载数据:

loader.load()

以下是输出结果:

[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpylg6291i/fake.docx'}, lookup_index=0)]