Document transformers | LangChain中文网

📄️ AI21语义文本分割器

本示例介绍如何在LangChain中使用AI21语义文本分割器。

📄️ 美丽汤

美丽汤是一个用于解析 HTML 和 XML 文档的 Python 包（包括处理格式错误的标记，即未闭合的标签，因此得名标签汤）。

📄️ 交叉编码器重排序器

本笔记本展示了如何在检索器中实现重排序器，使用您自己的交叉编码器，来自 Hugging Face 交叉编码器模型或实现交叉编码器功能的 Hugging Face 模型（示例：BAAI/bge-reranker-base）。SagemakerEndpointCrossEncoder 使您能够使用这些加载在 Sagemaker 上的 HuggingFace 模型。

📄️ DashScope 重新排序器

本笔记本展示了如何使用 DashScope 重新排序器进行文档压缩和检索。DashScope 是阿里云的生成式 AI 服务。

📄️ Doctran: 提取属性

我们可以使用 Doctran 库提取文档的有用特征，该库利用 OpenAI 的函数调用功能提取特定的元数据。

📄️ Doctran: 询问文档

在向量存储知识库中使用的文档通常以叙述或对话格式存储。然而，大多数用户查询是以问题格式进行的。如果我们在向量化文档之前将文档转换为问答格式，我们可以增加检索相关文档的可能性，并减少检索不相关文档的可能性。

📄️ Doctran: 语言翻译

通过嵌入比较文档的好处在于可以跨多种语言工作。“哈里森说你好”和“哈里森说西班牙语你好”在向量空间中将占据相似的位置，因为它们在语义上具有相同的含义。

📄️ Google Cloud Vertex AI 重新排序器

Vertex Search Ranking API 是 Vertex AI Agent Builder 中的独立 API 之一。它接受一组文档，并根据这些文档与查询的相关性对其进行重新排序。与仅关注文档和查询的语义相似性的嵌入模型相比，排名 API 可以为文档回答特定查询的效果提供精确的评分。排名 API 可用于在检索初始候选文档后提高搜索结果的质量。