非结构化
unstructured
包来自 Unstructured.IO 从原始源文档中提取干净的文本,如 PDF 和 Word 文档。 本页面介绍如何在 LangChain 中使用unstructured
生态系统。
安装和设置
如果您使用的是本地运行的加载器,请按照以下步骤获取 unstructured
及其
依赖项的运行。
-
为了获得最小的安装占用并利用未在其中提供的功能 开源的
unstructured
包,使用pip install unstructured-client
安装 Python SDK 同时使用pip install langchain-unstructured
来使用UnstructuredLoader
和分区 远程访问 Unstructured API。这个加载器位于 LangChain 合作伙伴库中,而不是langchain-community
库,你需要一个api_key
,你可以在 这里 生成一个免费密钥。 -
Unstructured 的 SDK 文档可以在这里找到: https://docs.unstructured.io/api-reference/api-services/sdk
-
要在本地运行所有内容,请使用
pip install unstructured
安装开源 Python 包 同时使用pip install langchain-community
并使用上述提到的相同UnstructuredLoader
。 -
你可以通过 extras 安装特定于文档的依赖项,例如
pip install "unstructured[docx]"
。 -
要安装所有文档类型的依赖项,请使用
pip install "unstructured[all-docs]"
。 -
如果您的系统尚未安装以下系统依赖项,请使用例如
brew install
在Mac上安装。 根据您解析的文档类型,您可能不 需要所有这些依赖项。 -
libmagic-dev
(文件类型检测) -
poppler-utils
(图像和PDF) -
tesseract-ocr
(图像和PDF) -
qpdf
(PDF) -
libreoffice
(MS Office文档) -
pandoc
(EPUB) -
在本地运行时,Unstructured 还建议使用 Docker 通过遵循此 指南 确保所有 系统依赖项正确安装。
Unstructured API 需要 API 密钥才能发出请求。 您可以在 这里 请求 API 密钥,并立即开始使用! 在 这里 查看 README,以开始进行 API 调用。 我们很想听到您的反馈,请在我们的 社区 Slack 中告诉我们您的使用情况。 并请关注质量和性能的改进! 查看说明 这里,如果您想自托管 Unstructured API 或在本地运行它。
数据加载器
Unstructured
的主要用途是在数据加载器中。
UnstructuredLoader
查看 使用示例 以了解如何使用 此加载器进行本地和远程分区,使用无服务器的 Unstructured API。
from langchain_unstructured import UnstructuredLoader
非结构化CHMLoader
CHM
指的是 Microsoft 编译的 HTML 帮助
。
from langchain_community.document_loaders import UnstructuredCHMLoader
非结构化CSVLoader
一个 逗号分隔值
(CSV
) 文件是一个使用分隔符的文本文件,
用逗号来分隔值。文件的每一行都是一个数据记录。
每个记录由一个或多个字段组成,字段之间用逗号分隔。
请参见 使用示例。
from langchain_community.document_loaders import UnstructuredCSVLoader
非结构化EmailLoader
请参见 使用示例。
from langchain_community.document_loaders import UnstructuredEmailLoader
非结构化EPubLoader
EPUB 是一种 电子书文件格式
,使用
“.epub” 文件扩展名。该术语是电子出版物的缩写,有时
被称为 ePub
。EPUB
得到许多电子阅读器的支持,兼容的
软件可在大多数智能手机、平板电脑和计算机上使用。
请参见 使用示例。
from langchain_community.document_loaders import UnstructuredEPubLoader
非结构化Excel加载器
请参见 使用示例。
from langchain_community.document_loaders import UnstructuredExcelLoader
非结构化文件I/O加载器
请参见 使用示例。
from langchain_community.document_loaders import UnstructuredFileIOLoader
非结构化HTML加载器
查看使用示例。
from langchain_community.document_loaders import UnstructuredHTMLLoader