Skip to main content

Dedoc

Dedoc 是一个 开源 库/服务,提取文本、表格、附加文件和文档结构 (例如,标题、列表项等) 从各种格式的文件中。

Dedoc 支持 DOCXXLSXPPTXEMLHTMLPDF、图像等。 支持格式的完整列表可以在 这里 找到。

安装和设置

Dedoc 库

您可以使用 pip 安装 Dedoc。 在这种情况下,您需要安装依赖项, 请访问 这里 以获取更多信息。

pip install dedoc

Dedoc API

如果您要使用 Dedoc API,您无需安装 dedoc 库。 在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(请参见 文档 以获取更多详细信息):

docker pull dedocproject/dedoc
docker run -p 1231:1231

文档加载器

  • 对于处理任何格式的文件(由 Dedoc 支持),您可以使用 DedocFileLoader

    from langchain_community.document_loaders import DedocFileLoader
  • 对于处理 PDF 文件(有或没有文本层),您可以使用 DedocPDFLoader

    from langchain_community.document_loaders import DedocPDFLoader
  • 对于处理任何格式的文件而无需安装库, 您可以使用 Dedoc APIDedocAPIFileLoader

    from langchain_community.document_loaders import DedocAPIFileLoader

有关更多详细信息,请参见使用示例


Was this page helpful?


You can also leave detailed feedback on GitHub.

扫我,入群扫我,找书