LLM Sherpa
本笔记本介绍如何使用 LLM Sherpa
加载多种类型的文件。LLM Sherpa
支持多种文件格式,包括 DOCX、PPTX、HTML、TXT 和 XML。
LLMSherpaFileLoader
使用 LayoutPDFReader,这是 LLMSherpa 库的一部分。该工具旨在解析 PDF,同时保留其布局信息,而在使用大多数 PDF 转文本解析器时,这些信息通常会丢失。
以下是 LayoutPDFReader 的一些关键特性:
- 它可以识别并提取章节和子章节及其级别。
- 它可以将行合并成段落。
- 它可以识别章节和段落之间的链接。
- 它可以提取表格以及表格所在的章节。
- 它可以识别并提取列表和嵌套列表。
- 它可以连接跨页的内容。
- 它可以去除重复的页眉和页脚。
- 它可以去除水印。
查看 llmsherpa 文档。
信息:该库在某些 PDF 文件上可能会失败,因此请谨慎使用。
# Install package
# !pip install --upgrade --quiet llmsherpa
LLMSherpa文件加载器
在底层,LLMSherpa文件加载器定义了一些策略来加载文件内容: ["sections", "chunks", "html", "text"],设置nlm-ingestor以获取llmsherpa_api_url
或使用默认值。