Skip to main content

检索器

一个 检索器 是一个接口,它根据非结构化查询返回文档。 它比向量存储更为通用。 检索器不需要能够存储文档,只需返回(或检索)它们。 检索器可以从向量存储创建,但也足够广泛,包括 维基百科搜索亚马逊 Kendra

检索器接受字符串查询作为输入,并返回一个 文档 列表作为输出。

有关如何使用检索器的具体信息,请参见 相关的使用指南

请注意,所有 向量存储 都可以 转换为检索器。 有关可用向量存储的信息,请参阅向量存储 集成文档。 此页面列出了通过子类化 BaseRetriever 实现的自定义检索器。

自带文档

以下检索器允许您索引和搜索自定义文档库。

RetrieverSelf-hostCloud offeringPackage
AmazonKnowledgeBasesRetrieverlangchain_aws
AzureAISearchRetrieverlangchain_community
ElasticsearchRetrieverlangchain_elasticsearch
MilvusCollectionHybridSearchRetrieverlangchain_milvus
VertexAISearchRetrieverlangchain_google_community

外部索引

以下检索器将在外部索引上进行搜索(例如,从互联网数据或类似数据构建的索引)。

RetrieverSourcePackage
ArxivRetrieverScholarly articles on arxiv.orglangchain_community
TavilySearchAPIRetrieverInternet searchlangchain_community
WikipediaRetrieverWikipedia articleslangchain_community

所有检索器

NameDescription
Activeloop 深度记忆Activeloop 深度记忆 是一套工具,能够帮助您优化您的向量存储以适应您的用例,并在您的大型语言模型应用中实现更高的准确性。
亚马逊 Kendra亚马逊 Kendra 是由 亚马逊网络服务 (AWS) 提供的智能搜索服务。它利用先进的自然语言处理 (NLP) 和机器学习算法,使组织内...
ArceeArcee 帮助开发 SLMs——小型、专业、安全和可扩展的语言模型。
ArxivarXiv 是一个开放获取的档案库,包含200万篇学术文章,涵盖物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学...
AskNewsAskNews 通过单一自然语言查询为任何大型语言模型注入最新的全球新闻(或历史新闻)。具体来说,AskNews 每天丰富超过 30 万篇...
Azure AI SearchAzure AI Search(前称为 Azure Cognitive Search)是微软的云搜索服务,为开发者提供基础设施、API和工...
Bedrock (Knowledge Bases)本指南将帮助您开始使用 AWS 知识库 检索器。
BM25BM25 (维基百科) 也被称为 Okapi BM25,是一种用于信息检索系统的排名函数,用于估计文档与给定搜索查询的相关性。
Box这将帮助您开始使用 Box 检索器。有关所有 BoxRetriever 功能和配置的详细文档,请访问 API 参考。
BREEBS (开放知识)BREEBS 是一个开放的协作知识平台。
ChaindeskChaindesk平台 将来自任何地方的数据(数据源:文本、PDF、Word、PowerPoint、Excel、Notion、Airtab...
ChatGPT 插件OpenAI 插件 将 ChatGPT 连接到第三方应用程序。这些插件使 ChatGPT 能够与开发者定义的 API 进行交互,增强 Ch...
Cohere 重新排序器Cohere 是一家加拿大初创公司,提供自然语言处理模型,帮助公司改善人机交互。
Cohere RAGCohere 是一家加拿大初创公司,提供自然语言处理模型,帮助企业改善人机交互。
DocArrayDocArray 是一个多功能的开源工具,用于管理您的多模态数据。它允许您以任何您想要的方式塑造数据,并提供灵活性以使用各种文档索引后端进...
DriaDria 是一个公共RAG模型的中心,供开发者贡献和利用共享的嵌入湖。本笔记本演示了如何使用 Dria API 进行数据检索任务。
ElasticSearch BM25Elasticsearch 是一个分布式的、RESTful的搜索和分析引擎。它提供了一个分布式的、多租户的全文本搜索引擎,具有HTTP网页...
ElasticsearchElasticsearch 是一个分布式的、RESTful 的搜索和分析引擎。它提供了一个分布式的、多租户的全文搜索引擎,具有 HTTP ...
EmbedchainEmbedchain 是一个用于创建数据管道的RAG框架。它加载、索引、检索和同步所有数据。
FlashRank 重新排序器FlashRank 是一个超轻量级和超快速的 Python 库,用于为您现有的搜索和检索管道添加重新排序功能。它基于最先进的交叉编码器,感...
Fleet AI 上下文Fleet AI 上下文 是一个包含1200个最受欢迎和最宽松的Python库及其文档的高质量嵌入数据集。
Google Drive本笔记本介绍如何从 Google Drive 中检索文档。
Google Vertex AI SearchGoogle Vertex AI Search(前称为企业搜索在生成式AI应用构建器上)是Google Cloud提供的Vertex AI...
JaguarDB 向量数据库[JaguarDB 向量数据库](http://www.jaguardb.com/windex.html
Kay.aiKai Data API 为RAG构建 🕵️ 我们正在策划世界上最大的高质量嵌入数据集,以便您的AI代理可以即时检索上下文。最新模型,快...
基于 Kinetica 向量存储的检索器Kinetica 是一个集成支持向量相似性搜索的数据库
kNN在统计学中,k-最近邻算法 (k-NN) 是一种非参数监督学习方法,最早由 Evelyn Fix 和 Joseph Hodges 于195...
LLMLingua 文档压缩器LLMLingua 利用紧凑且经过良好训练的语言模型(例如,GPT2-small,LLaMA-7B)来识别和删除提示中的非必要标记。这种方...
LOTR (合并检索器)检索者之主 (LOTR),也称为合并检索器,接受一个检索器列表作为输入,并将它们的 getrelevantdocuments() 方法的结...
MetalMetal 是一个用于机器学习嵌入的托管服务。
Milvus Hybrid SearchMilvus 是一个开源向量数据库,旨在支持嵌入相似性搜索和人工智能应用。Milvus 使非结构化数据搜索变得更加便捷,并提供一致的用户体...
NanoPQ (产品量化)产品量化算法 (k-NN) 简要介绍是一种量化算法,帮助压缩数据库向量,在涉及大数据集时有助于语义搜索。简而言之,嵌入被分割成 M 个子空...
OutlineOutline 是一个开源的协作知识库平台,旨在为团队信息共享提供支持。
Pinecone 混合搜索Pinecone 是一个功能广泛的向量数据库。
PubMedPubMed® 由 国家生物技术信息中心,国家医学图书馆 提供,包含超过 3500 万条生物医学文献的引用,来源于 MEDLINE、生命科...
Qdrant 稀疏向量Qdrant 是一个开源的高性能向量搜索引擎/数据库。
RAGatouilleRAGatouille 使得使用 ColBERT 变得简单至极!
重述查询重述查询 是一个简单的检索器,它在用户输入和检索器传递的查询之间应用大型语言模型。
记忆器记忆器 是由 SkyDeck AI Inc. 创建的用于 AI 应用的知识增强服务。
SEC 文件SEC 文件 是提交给美国证券交易委员会 (SEC) 的财务报表或其他正式文件。上市公司、某些内部人士和经纪交易商需要定期进行 SEC 文...
自查询检索器
SingleStoreDBSingleStoreDB 是一个高性能的分布式 SQL 数据库,支持在 云端 和本地部署。它提供向量存储和向量函数,包括 dotprod...
支持向量机支持向量机 (SVM) 是一组用于分类、回归和异常检测的监督学习方法。
TavilySearchAPITavily的搜索API 是一个专为AI代理(大型语言模型)构建的搜索引擎,能够快速提供实时、准确和事实性的结果。
TF-IDFTF-IDF 指的是词频乘以逆文档频率。
**NeuralDB**NeuralDB 是一个由 ThirdAI 开发的 CPU 友好且可精细调整的检索引擎。
VespaVespa 是一个功能齐全的搜索引擎和向量数据库。它支持向量搜索(ANN)、词汇搜索和结构化数据搜索,所有这些都可以在同一个查询中进行。
Weaviate 混合搜索Weaviate 是一个开源向量数据库。
Wikipedia概述
You.comyou.com API 是一套工具,旨在帮助开发者将大型语言模型的输出与最新、最准确、最相关的信息结合起来,这些信息可能未包含在其训练数据...
Zep CloudZep Cloud 的检索器示例
Zep 开源Zep 的检索器示例
Zilliz Cloud PipelineZilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的向量集合,链式处理数据的嵌入、摄取、搜索和删除。

Was this page helpful?


You can also leave detailed feedback on GitHub.

扫我,入群扫我,找书