📄️ AI21语义文本分割器
本示例介绍如何在LangChain中使用AI21语义文本分割器。
📄️ 美丽汤
美丽汤 是一个用于解析 HTML 和 XML 文档的 Python 包(包括处理格式错误的标记,即未闭合的标签,因此得名标签汤)。
📄️ 交叉编码器重排序器
本笔记本展示了如何在检索器中实现重排序器,使用您自己的交叉编码器,来自 Hugging Face 交叉编码器模型 或实现交叉编码器功能的 Hugging Face 模型(示例:BAAI/bge-reranker-base)。SagemakerEndpointCrossEncoder 使您能够使用这些加载在 Sagemaker 上的 HuggingFace 模型。
📄️ DashScope 重新排序器
本笔记本展示了如何使用 DashScope 重新排序器进行文档压缩和检索。DashScope 是阿里云的生成式 AI 服务。
📄️ Doctran: 提取属性
我们可以使用 Doctran 库提取文档的有用特征,该库利用 OpenAI 的函数调用功能提取特定的元数据。
📄️ Doctran: 询问文档
在向量存储知识库中使用的文档通常以叙述或对话格式存储。然而,大多数用户查询是以问题格式进行的。如果我们在向量化文档之前将文档转换为问答格式,我们可以增加检索相关文档的可能性,并减少检索不相关文档的可能性。
📄️ Doctran: 语言翻译
通过嵌入比较文档的好处在于可以跨多种语言工作。“哈里森说你好”和“哈里森说西班牙语你好”在向量空间中将占据相似的位置,因为它们在语义上具有相同的含义。
📄️ Google Cloud Vertex AI 重新排序器
Vertex Search Ranking API 是 Vertex AI Agent Builder 中的独立 API 之一。它接受一组文档,并根据这些文档与查询的相关性对其进行重新排序。与仅关注文档和查询的语义相似性的嵌入模型相比,排名 API 可以为文档回答特定查询的效果提供精确的评分。排名 API 可用于在检索初始候选文档后提高搜索结果的质量。
📄️ Google Cloud Document AI
Document AI 是来自 Google Cloud 的文档理解平台,旨在将文档中的非结构化数据转化为结构化数据,从而更容易理解、分析和使用。
📄️ 谷歌翻译
谷歌翻译 是由谷歌开发的多语言神经机器翻译服务,用于将文本、文档和网站从一种语言翻译成另一种语言。
📄️ HTML 转文本
html2text 是一个将 HTML 页面转换为干净、易读的纯 ASCII 文本 的 Python 包。
📄️ Jina Reranker
本笔记展示了如何使用 Jina Reranker 进行文档压缩和检索。
📄️ Markdownify
markdownify 是一个Python包,可以将HTML文档转换为Markdown格式,具有可自定义的选项来处理标签(链接、图片等)、标题样式和其他内容。
📄️ Nuclia
Nuclia 自动从任何内部和外部来源自动索引您的非结构化数据,提供优化的搜索结果和生成的答案。它可以处理视频和音频转录、图像内容提取和文档解析。
📄️ OpenAI 元数据标记器
将摄取的文档标记为结构化元数据(例如文档的标题、语气或长度)通常是有用的,以便后续进行更有针对性的相似性搜索。然而,对于大量文档,手动执行此标记过程可能会很繁琐。