Word 文档
本节介绍了如何将Word文档加载到我们可以在下游使用的文档格式中。
使用Docx2txt
使用Docx2txt
加载 .docx文档 并转换为文档格式。
from langchain.document_loaders import Docx2txtLoader
loader = Docx2txtLoader("example_data/fake.docx")
data = loader.load()
data
[Document(page_content='Lorem ipsum dolor sit amet.', metadata={'source': 'example_data/fake.docx'})]
使用非结构化 Using Unstructured #
from langchain.document_loaders import UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader("example_data/fake.docx")
data = loader.load()
data
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': 'fake.docx'}, lookup_index=0)]
保留元素 Retain Elements #
在背后,Unstructured为不同的文本块创建不同的“元素”。
默认情况下,我们将它们组合在一起,但您可以通过指定 mode =“elements”
轻松保持该分离。
loader = UnstructuredWordDocumentLoader("example_data/fake.docx", mode="elements")
data = loader.load()
data[0]
Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': 'fake.docx', 'filename': 'fake.docx', 'category': 'Title'}, lookup_index=0)