检索器

一个检索器是一个接口，它根据非结构化查询返回文档。它比向量存储更为通用。检索器不需要能够存储文档，只需返回（或检索）它们。检索器可以从向量存储创建，但也足够广泛，包括维基百科搜索和亚马逊 Kendra。

检索器接受字符串查询作为输入，并返回一个文档列表作为输出。

有关如何使用检索器的具体信息，请参见相关的使用指南。

请注意，所有向量存储都可以转换为检索器。有关可用向量存储的信息，请参阅向量存储集成文档。此页面列出了通过子类化 BaseRetriever 实现的自定义检索器。

自带文档

以下检索器允许您索引和搜索自定义文档库。

Retriever	Self-host	Cloud offering	Package
AmazonKnowledgeBasesRetriever	❌	✅	langchain_aws
AzureAISearchRetriever	❌	✅	langchain_community
ElasticsearchRetriever	✅	✅	langchain_elasticsearch
MilvusCollectionHybridSearchRetriever	✅	❌	langchain_milvus
VertexAISearchRetriever	❌	✅	langchain_google_community

外部索引

以下检索器将在外部索引上进行搜索（例如，从互联网数据或类似数据构建的索引）。

Retriever	Source	Package
ArxivRetriever	Scholarly articles on arxiv.org	langchain_community
TavilySearchAPIRetriever	Internet search	langchain_community
WikipediaRetriever	Wikipedia articles	langchain_community

所有检索器

Name	Description
Activeloop 深度记忆	Activeloop 深度记忆是一套工具，能够帮助您优化您的向量存储以适应您的用例，并在您的大型语言模型应用中实现更高的准确性。
亚马逊 Kendra	亚马逊 Kendra 是由亚马逊网络服务 (AWS) 提供的智能搜索服务。它利用先进的自然语言处理 (NLP) 和机器学习算法，使组织内...
Arcee	Arcee 帮助开发 SLMs——小型、专业、安全和可扩展的语言模型。
Arxiv	arXiv 是一个开放获取的档案库，包含200万篇学术文章，涵盖物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学...
AskNews	AskNews 通过单一自然语言查询为任何大型语言模型注入最新的全球新闻（或历史新闻）。具体来说，AskNews 每天丰富超过 30 万篇...
Azure AI Search	Azure AI Search（前称为 Azure Cognitive Search）是微软的云搜索服务，为开发者提供基础设施、API和工...
Bedrock (Knowledge Bases)	本指南将帮助您开始使用 AWS 知识库检索器。
BM25	BM25 (维基百科) 也被称为 Okapi BM25，是一种用于信息检索系统的排名函数，用于估计文档与给定搜索查询的相关性。
Box	这将帮助您开始使用 Box 检索器。有关所有 BoxRetriever 功能和配置的详细文档，请访问 API 参考。
BREEBS (开放知识)	BREEBS 是一个开放的协作知识平台。
Chaindesk	Chaindesk平台将来自任何地方的数据（数据源：文本、PDF、Word、PowerPoint、Excel、Notion、Airtab...
ChatGPT 插件	OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插件使 ChatGPT 能够与开发者定义的 API 进行交互，增强 Ch...
Cohere 重新排序器	Cohere 是一家加拿大初创公司，提供自然语言处理模型，帮助公司改善人机交互。
Cohere RAG	Cohere 是一家加拿大初创公司，提供自然语言处理模型，帮助企业改善人机交互。
DocArray	DocArray 是一个多功能的开源工具，用于管理您的多模态数据。它允许您以任何您想要的方式塑造数据，并提供灵活性以使用各种文档索引后端进...
Dria	Dria 是一个公共RAG模型的中心，供开发者贡献和利用共享的嵌入湖。本笔记本演示了如何使用 Dria API 进行数据检索任务。
ElasticSearch BM25	Elasticsearch 是一个分布式的、RESTful的搜索和分析引擎。它提供了一个分布式的、多租户的全文本搜索引擎，具有HTTP网页...
Elasticsearch	Elasticsearch 是一个分布式的、RESTful 的搜索和分析引擎。它提供了一个分布式的、多租户的全文搜索引擎，具有 HTTP ...
Embedchain	Embedchain 是一个用于创建数据管道的RAG框架。它加载、索引、检索和同步所有数据。
FlashRank 重新排序器	FlashRank 是一个超轻量级和超快速的 Python 库，用于为您现有的搜索和检索管道添加重新排序功能。它基于最先进的交叉编码器，感...
Fleet AI 上下文	Fleet AI 上下文是一个包含1200个最受欢迎和最宽松的Python库及其文档的高质量嵌入数据集。
Google Drive	本笔记本介绍如何从 Google Drive 中检索文档。
Google Vertex AI Search	Google Vertex AI Search（前称为企业搜索在生成式AI应用构建器上）是Google Cloud提供的Vertex AI...
JaguarDB 向量数据库	[JaguarDB 向量数据库](http://www.jaguardb.com/windex.html
Kay.ai	Kai Data API 为RAG构建 🕵️ 我们正在策划世界上最大的高质量嵌入数据集，以便您的AI代理可以即时检索上下文。最新模型，快...
基于 Kinetica 向量存储的检索器	Kinetica 是一个集成支持向量相似性搜索的数据库
kNN	在统计学中，k-最近邻算法 (k-NN) 是一种非参数监督学习方法，最早由 Evelyn Fix 和 Joseph Hodges 于195...
LLMLingua 文档压缩器	LLMLingua 利用紧凑且经过良好训练的语言模型（例如，GPT2-small，LLaMA-7B）来识别和删除提示中的非必要标记。这种方...
LOTR (合并检索器)	检索者之主 (LOTR)，也称为合并检索器，接受一个检索器列表作为输入，并将它们的 getrelevantdocuments() 方法的结...
Metal	Metal 是一个用于机器学习嵌入的托管服务。
Milvus Hybrid Search	Milvus 是一个开源向量数据库，旨在支持嵌入相似性搜索和人工智能应用。Milvus 使非结构化数据搜索变得更加便捷，并提供一致的用户体...
NanoPQ (产品量化)	产品量化算法 (k-NN) 简要介绍是一种量化算法，帮助压缩数据库向量，在涉及大数据集时有助于语义搜索。简而言之，嵌入被分割成 M 个子空...
Outline	Outline 是一个开源的协作知识库平台，旨在为团队信息共享提供支持。
Pinecone 混合搜索	Pinecone 是一个功能广泛的向量数据库。
PubMed	PubMed® 由国家生物技术信息中心，国家医学图书馆提供，包含超过 3500 万条生物医学文献的引用，来源于 MEDLINE、生命科...
Qdrant 稀疏向量	Qdrant 是一个开源的高性能向量搜索引擎/数据库。
RAGatouille	RAGatouille 使得使用 ColBERT 变得简单至极！
重述查询	重述查询是一个简单的检索器，它在用户输入和检索器传递的查询之间应用大型语言模型。
记忆器	记忆器是由 SkyDeck AI Inc. 创建的用于 AI 应用的知识增强服务。
SEC 文件	SEC 文件是提交给美国证券交易委员会 (SEC) 的财务报表或其他正式文件。上市公司、某些内部人士和经纪交易商需要定期进行 SEC 文...
自查询检索器
SingleStoreDB	SingleStoreDB 是一个高性能的分布式 SQL 数据库，支持在云端和本地部署。它提供向量存储和向量函数，包括 dotprod...
支持向量机	支持向量机 (SVM) 是一组用于分类、回归和异常检测的监督学习方法。
TavilySearchAPI	Tavily的搜索API 是一个专为AI代理（大型语言模型）构建的搜索引擎，能够快速提供实时、准确和事实性的结果。
TF-IDF	TF-IDF 指的是词频乘以逆文档频率。
NeuralDB	NeuralDB 是一个由 ThirdAI 开发的 CPU 友好且可精细调整的检索引擎。
Vespa	Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持向量搜索（ANN）、词汇搜索和结构化数据搜索，所有这些都可以在同一个查询中进行。
Weaviate 混合搜索	Weaviate 是一个开源向量数据库。
Wikipedia	概述
You.com	you.com API 是一套工具，旨在帮助开发者将大型语言模型的输出与最新、最准确、最相关的信息结合起来，这些信息可能未包含在其训练数据...
Zep Cloud	Zep Cloud 的检索器示例
Zep 开源	Zep 的检索器示例
Zilliz Cloud Pipeline	Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的向量集合，链式处理数据的嵌入、摄取、搜索和删除。

检索器

自带文档

外部索引

所有检索器

Was this page helpful?

You can also leave detailed feedback on GitHub.

自带文档​

外部索引​

所有检索器​

Was this page helpful?

You can also leave detailed feedback on GitHub.

自带文档

外部索引

所有检索器