Skip to main content

文档加载器

文档加载器将数据加载到标准的LangChain文档格式中。

每个文档加载器都有其特定的参数,但它们都可以通过.load方法以相同的方式调用。 一个示例用例如下:

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()

网页

以下文档加载器允许您加载网页。

请参阅此指南以获取起点:如何:加载网页

Document LoaderDescriptionPackage/API
WebUses urllib and BeautifulSoup to load and parse HTML web pagesPackage
UnstructuredUses Unstructured to load and parse web pagesPackage
RecursiveURLRecursively scrapes all child links from a root URLPackage
SitemapScrapes all pages on a given sitemapPackage
FirecrawlAPI service that can be deployed locally, hosted version has free credits.API

PDF

以下文档加载器允许您加载PDF文档。

请参阅此指南以获取起点:如何:加载PDF文件

Document LoaderDescriptionPackage/API
PyPDFUses `pypdf` to load and parse PDFsPackage
UnstructuredUses Unstructured's open source library to load PDFsPackage
Amazon TextractUses AWS API to load PDFsAPI
MathPixUses MathPix to laod PDFsPackage
PDFPlumberLoad PDF files using PDFPlumberPackage
PyPDFDirectryLoad a directory with PDF filesPackage
PyPDFium2Load PDF files using PyPDFium2Package
PyMuPDFLoad PDF files using PyMuPDFPackage
PDFMinerLoad PDF files using PDFMinerPackage

云服务提供商

以下文档加载器允许您从您喜欢的云服务提供商加载文档。

Document LoaderDescriptionPartner PackageAPI reference
AWS S3 DirectoryLoad documents from an AWS S3 directoryS3DirectoryLoader
AWS S3 FileLoad documents from an AWS S3 fileS3FileLoader
Azure AI DataLoad documents from Azure AI servicesAzureAIDataLoader
Azure Blob Storage ContainerLoad documents from an Azure Blob Storage containerAzureBlobStorageContainerLoader
Azure Blob Storage FileLoad documents from an Azure Blob Storage fileAzureBlobStorageFileLoader
DropboxLoad documents from DropboxDropboxLoader
Google Cloud Storage DirectoryLoad documents from GCS bucketGCSDirectoryLoader
Google Cloud Storage FileLoad documents from GCS file objectGCSFileLoader
Google DriveLoad documents from Google Drive (Google Docs only)GoogleDriveLoader
Huawei OBS DirectoryLoad documents from Huawei Object Storage Service DirectoryOBSDirectoryLoader
Huawei OBS FileLoad documents from Huawei Object Storage Service FileOBSFileLoader
Microsoft OneDriveLoad documents from Microsoft OneDriveOneDriveLoader
Microsoft SharePointLoad documents from Microsoft SharePointSharePointLoader
Tencent COS DirectoryLoad documents from Tencent Cloud Object Storage DirectoryTencentCOSDirectoryLoader
Tencent COS FileLoad documents from Tencent Cloud Object Storage FileTencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

Document LoaderAPI reference
TwitterTwitterTweetLoader
RedditRedditPostsLoader

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

Document LoaderAPI reference
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook ChatFacebookChatLoader
MastodonMastodonTootsLoader

生产力工具

以下文档加载器允许您从常用的生产力工具加载数据。

Document LoaderAPI reference
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常见文件类型

以下文档加载器允许您从常见数据格式加载数据。

Document LoaderData Type
CSVLoaderCSV files
DirectoryLoaderAll files in a given directory
UnstructuredMany file types (see https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON files
BSHTMLLoaderHTML files

所有文档加载器

NameDescription
acreomacreom 是一个以开发为先的知识库,任务在本地 markdown 文件上运行。
AirbyteLoaderAirbyte 是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,支持数据仓库和...
Airtable* 在这里获取您的API密钥。
阿里云 MaxCompute阿里云 MaxCompute(之前称为 ODPS)是一个通用的、完全托管的、多租户数据处理平台,适用于大规模数据仓库。MaxCompute...
亚马逊 Textract亚马逊 Textract 是一项机器学习 (ML) 服务,能够自动从扫描文档中提取文本、手写和数据。
Apify 数据集Apify 数据集 是一个可扩展的仅追加存储,具有顺序访问功能,专为存储结构化的网页抓取结果而构建,例如产品列表或 Google SERP...
ArcGIS本笔记本演示了如何使用 langchaincommunity.documentloaders.ArcGISLoader 类。
ArxivLoaderarXiv 是一个开放获取的档案库,包含200万篇在物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学以及经济学领...
AssemblyAI 音频转录AssemblyAIAudioTranscriptLoader 允许使用 AssemblyAI API 转录音频文件,并将转录的文本加载到...
AstraDBDataStax Astra DB 是一个无服务器的支持向量的数据库,基于 Cassandra 构建,并通过易于使用的 JSON API ...
异步 ChromiumChromium 是 Playwright 支持的浏览器之一,Playwright 是一个用于控制浏览器自动化的库。
异步HTMLAsyncHtmlLoader 从URL列表中并发加载原始HTML。
AthenaAmazon Athena 是一个无服务器的交互式分析服务,构建于
AWS S3 目录亚马逊简单存储服务 (Amazon S3) 是一种对象存储服务
AWS S3 文件亚马逊简单存储服务 (Amazon S3) 是一种对象存储服务。
AZLyricsAZLyrics 是一个大型的、合法的、每天都在增长的歌词集合。
Azure AI 数据Azure AI Studio 提供将数据资产上传到云存储并注册来自以下来源的现有数据资产的能力:
Azure Blob Storage 容器Azure Blob Storage 是微软的云对象存储解决方案。Blob 存储经过优化,适合存储大量非结构化数据。非结构化数据是指不遵循...
Azure Blob 存储文件Azure Files 提供完全托管的云文件共享,可以通过行业标准的服务器消息块 (SMB) 协议、网络文件系统 (NFS) 协议和 Az...
Azure AI 文档智能Azure AI 文档智能(前称 Azure 表单识别器)是基于机器学习的
BibTeXBibTeX 是一种文件格式和参考管理系统,通常与 LaTeX 排版一起使用。它作为一种组织和存储学术和研究文档的书目资料的方法。
哔哩哔哩哔哩哔哩 是中国最受欢迎的长视频网站之一。
BlackboardBlackboard Learn(之前称为Blackboard学习管理系统)是由Blackboard Inc.开发的基于网络的虚拟学习环境...
区块链概述
Box本笔记本提供了关于如何使用 Box 文档加载器 的快速概述。有关所有 BoxLoader 功能和配置的详细文档,请访问 API 参考。
Brave SearchBrave Search 是由 Brave Software 开发的搜索引擎。
BrowserbaseBrowserbase 是一个开发者平台,用于可靠地运行、管理和监控无头浏览器。
无头浏览器无头浏览器是一个服务,允许您在云中运行无头 Chrome 实例。这是以规模运行基于浏览器的自动化的好方法,而无需担心管理自己的基础设施。
BSHTMLLoader本笔记本提供了一个快速概述,帮助您开始使用 BeautifulSoup4 文档加载器。有关所有 ModuleNameLoader 功能和配...
CassandraCassandra 是一个 NoSQL、行导向、高度可扩展和高度可用的数据库。从 5.0 版本开始,数据库提供了 向量搜索功能。
ChatGPT 数据ChatGPT 是由 OpenAI 开发的人工智能 (AI) 聊天机器人。
CollegeConfidentialCollegeConfidential 提供关于3800多所大学的信息。
并发加载器与GenericLoader的工作方式相同,但为那些选择优化工作流程的人提供并发处理。
ConfluenceConfluence 是一个维基协作平台,用于保存和组织所有与项目相关的材料。Confluence 是一个主要处理内容管理活动的知识库。
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修订版。注释以纯文本文件(UTF-8,标准化为 NFC,仅使用 LF 字符作为换行符,文件末尾包...
复制粘贴本笔记本介绍如何从您想要复制和粘贴的内容加载文档对象。在这种情况下,您甚至不需要使用文档加载器,而是可以直接构造文档。
CouchbaseCouchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,提供无与伦比的多功能性、性能、可扩展性和财务价值,适用于您的所有云、移动...
CSVA 逗号分隔值 (CSV) 文件是一个使用逗号分隔值的分隔文本文件。文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,字段之间用...
Cube 语义层本笔记本演示了以适合传递给大型语言模型(LLMs)作为嵌入的格式检索 Cube 数据模型元数据的过程,从而增强上下文信息。
Datadog 日志Datadog 是一个用于云规模应用的监控和分析平台。
Dedoc此示例演示了如何将 Dedoc 与 LangChain 结合使用作为 文档加载器。
DiffbotDiffbot 是一套基于机器学习的产品,旨在简化网页数据的结构化处理。
DiscordDiscord 是一个VoIP和即时消息社交平台。用户可以通过语音通话、视频通话、文本消息、媒体和文件在私人聊天或称为“服务器”的社区中进...
Docugami本笔记本介绍了如何从 Docugami 加载文档。它提供了使用该系统相对于其他数据加载器的优势。
DocusaurusDocusaurus 是一个静态网站生成器,提供开箱即用的文档功能。
DropboxDropbox 是一个文件托管服务,将传统文件、云内容和网页快捷方式汇聚在一个地方。
DuckDBDuckDB 是一个内嵌式 SQL OLAP 数据库管理系统。
邮件本笔记本展示了如何加载电子邮件(.eml)或 Microsoft Outlook(.msg)文件。
EPubEPUB 是一种电子书文件格式,使用 ".epub" 文件扩展名。该术语是电子出版物的缩写,有时被称为 ePub。EPUB 被许多电子阅读...
EtherscanEtherscan 是领先的区块链浏览器、搜索、API 和分析平台,专为以太坊设计,
EverNoteEverNote 旨在归档和创建可以嵌入照片、音频和保存的网页内容的笔记。笔记存储在虚拟“笔记本”中,可以进行标签、注释、编辑、搜索和导出。
example_data
Facebook 聊天Messenger) 是由 Meta Platforms 开发的美国专有即时通讯应用程序和平台。最初在2008年作为 Facebook 聊...
FaunaFauna 是一个文档数据库。
FigmaFigma 是一个用于界面设计的协作网页应用程序。
FireCrawlFireCrawl 爬取并将任何网站转换为适合大型语言模型的数据。它爬取所有可访问的子页面,并为每个页面提供干净的Markdown和元数据...
GeopandasGeopandas 是一个开源项目,旨在简化在 Python 中处理地理空间数据的工作。
GitGit 是一个分布式版本控制系统,用于跟踪任何计算机文件集的更改,通常用于协调程序员在软件开发过程中协作开发源代码的工作。
GitBookGitBook 是一个现代文档平台,团队可以在这里记录从产品到内部知识库和API的所有内容。
GitHub本笔记展示了如何加载给定仓库在GitHub上的问题和拉取请求(PR)。还展示了如何加载给定仓库在GitHub上的文件。我们将以LangCh...
Glue CatalogAWS Glue 数据目录是一个集中式元数据存储库,允许您管理、访问和共享存储在 AWS 中的数据的元数据。它充当您数据资产的元数据存储,...
Google AlloyDB for PostgreSQLAlloyDB 是一个完全托管的关系数据库服务,提供高性能、无缝集成和令人印象深刻的可扩展性。AlloyDB 与 PostgreSQL 1...
Google BigQueryGoogle BigQuery 是一个无服务器且具有成本效益的企业数据仓库,能够跨云工作并随着您的数据进行扩展。
Google BigtableBigtable 是一个键值和宽列存储,适合快速访问结构化、半结构化或非结构化数据。扩展您的数据库应用程序,构建利用 Bigtable 的...
Google Cloud SQL for SQL serverCloud SQL 是一个完全托管的关系数据库服务,提供高性能、无缝集成和令人印象深刻的可扩展性。它提供 MySQL、PostgreSQL...
Google Cloud SQL for MySQLCloud SQL 是一个完全托管的关系数据库服务,提供高性能、无缝集成和令人印象深刻的可扩展性。它提供 MySQL、PostgreSQL...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一个完全托管的数据库服务,帮助您在 Google Cloud Platform 上设置...
Google Cloud Storage 目录Google Cloud Storage 是一个用于存储非结构化数据的托管服务。
Google Cloud Storage 文件Google Cloud Storage 是一个用于存储非结构化数据的托管服务。
Google Firestore 在 Datastore 模式下Datastore 模式下的 Firestore 是一个为自动扩展、高性能和简化应用开发而构建的 NoSQL 文档数据库。扩展您的数据库应...
Google DriveGoogle Drive 是由 Google 开发的文件存储和同步服务。
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle Operator
Google Firestore (原生模式)Firestore 是一个无服务器的文档导向数据库,可以根据需求进行扩展。通过利用 Firestore 的 LangChain 集成,扩展...
Google Memorystore for RedisGoogle Memorystore for Redis 是一个完全托管的服务,基于 Redis 内存数据存储构建应用程序缓存,提供亚毫秒...
Google SpannerSpanner 是一个高度可扩展的数据库,结合了无限的可扩展性和关系语义,如二级索引、强一致性、模式和 SQL,提供 99.999% 的可...
Google 语音转文本音频转录SpeechToTextLoader 允许使用 Google Cloud Speech-to-Text API 转录音频文件,并将转录的文...
GrobidGROBID 是一个用于提取、解析和重构原始文档的机器学习库。
古腾堡古腾堡计划 是一个免费的电子书在线图书馆。
Hacker NewsHacker News(有时缩写为HN)是一个专注于计算机科学和创业的社交新闻网站。它由投资基金和创业孵化器Y Combinator运营。...
华为 OBS 目录以下代码演示了如何将华为 OBS(对象存储服务)中的对象加载为文档。
华为 OBS 文件以下代码演示了如何将华为 OBS(对象存储服务)中的对象加载为文档。
HuggingFace 数据集Hugging Face Hub 拥有超过 5,000 个 数据集,涵盖 100 多种语言,可用于自然语言处理、计算机视觉和音频等广泛任务...
iFixitiFixit 是网络上最大的开放维修社区。该网站包含近10万份维修手册、20万条关于4.2万种设备的问题与答案,所有数据均根据CC-BY-...
图片这部分介绍了如何将图像加载到我们可以在其他LangChain模块中使用的文档格式中。
图像标题默认情况下,加载器使用预训练的 Salesforce BLIP 图像标题生成模型。
IMSDbIMSDb 是 互联网电影剧本数据库。
IuguIugu 是一家巴西的服务和软件即服务 (SaaS) 公司。它为电子商务网站和移动应用程序提供支付处理软件和应用程序编程接口。
JoplinJoplin 是一个开源的笔记应用程序。捕捉你的想法,并可以从任何设备安全访问它们。
JSONLoader本笔记本提供了关于如何使用 JSON 文档加载器 的快速概述。有关所有 JSONLoader 功能和配置的详细文档,请访问 API 参考。
Jupyter NotebookJupyter Notebook(前称 IPython Notebook)是一个基于网页的交互式计算环境,用于创建笔记本文档。
Kinetica本笔记本介绍了如何从Kinetica加载文档
lakeFSlakeFS 提供对数据湖的可扩展版本控制,并使用类似 Git 的语义来创建和访问这些版本。
LangSmith本笔记本提供了一个快速概述,帮助您开始使用 LangSmith 文档加载器。有关所有 LangSmithLoader 功能和配置的详细文档...
LarkSuite (飞书)LarkSuite 是字节跳动开发的企业协作平台。
LLM Sherpa本笔记本介绍如何使用 LLM Sherpa 加载多种类型的文件。LLM Sherpa 支持多种文件格式,包括 DOCX、PPTX、HTML...
MastodonMastodon 是一个联邦社交媒体和社交网络服务。
MathPixPDFLoader灵感来自于 Daniel Gross 的代码片段: https://gist.github.com/danielgross/3ab4104...
MediaWiki 转储MediaWiki XML 转储 包含了一个维基的内容(维基页面及其所有修订),不包括与站点相关的数据。XML 转储并不创建维基数据库的完...
合并文档加载器合并从一组指定文档加载器返回的文档。
mhtmlMHTML是一种用于电子邮件和归档网页的格式。MHTML,有时称为MHT,代表MIME HTML,是一个将整个网页归档为单个文件的格式。当...
Microsoft ExcelUnstructuredExcelLoader 用于加载 Microsoft Excel 文件。该加载器支持 .xlsx 和 .xls 文...
Microsoft OneDriveMicrosoft OneDrive(前称 SkyDrive)是由微软运营的文件托管服务。
Microsoft OneNote本笔记本涵盖如何从 OneNote 加载文档。
Microsoft PowerPointMicrosoft PowerPoint 是微软的一款演示程序。
Microsoft SharePointMicrosoft SharePoint 是一个基于网站的协作系统,使用工作流应用程序、“列表”数据库以及其他网页组件和安全功能,旨在帮助...
Microsoft WordMicrosoft Word 是由微软开发的文字处理软件。
Near Blockchain概述
现代财政现代财政 简化复杂的支付操作。它是一个统一的平台,用于支持移动资金的产品和流程。
MongoDBMongoDB 是一个 NoSQL 文档导向数据库,支持具有动态模式的类似 JSON 的文档。
新闻网址这部分介绍了如何将来自网址列表的HTML新闻文章加载为我们可以在后续使用的文档格式。
Notion 数据库 2/2Notion 是一个具有修改过的 Markdown 支持的协作平台,集成了看板、任务、维基和数据库。它是一个用于笔记、知识和数据管理以及项...
NucliaNuclia 自动从任何内部和外部来源自动索引您的非结构化数据,提供优化的搜索结果和生成的答案。它可以处理视频和音频转录、图像内容提取和文...
ObsidianObsidian 是一个强大且可扩展的知识库
开放文档格式 (ODT)办公应用程序开放文档格式 (ODF),也称为 OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使...
开放城市数据Socrata 提供城市开放数据的API。
Oracle 自主数据库Oracle 自主数据库是一个云数据库,使用机器学习来自动化数据库调优、安全性、备份、更新和其他传统上由数据库管理员执行的日常管理任务。
Oracle AI 向量搜索:文档处理Oracle AI 向量搜索旨在处理人工智能 (AI) 工作负载,允许您基于语义而非关键字查询数据。
Org-modeA Org Mode 文档 是一种文档编辑、格式化和组织模式,旨在用于在自由软件文本编辑器 Emacs 中进行笔记、规划和创作。
Pandas 数据框本笔记本介绍了如何从 pandas 数据框加载数据。
PDFMiner概述
PDFPlumber与 PyMuPDF 类似,输出的文档包含关于 PDF 及其页面的详细元数据,并且每页返回一个文档。
Pebblo 安全文档加载器Pebblo 使开发者能够安全地加载数据,并在不担心组织的合规性和安全要求的情况下,将他们的生成 AI 应用程序推广到部署。该项目识别加载...
Polars 数据框本笔记本介绍了如何从 polars 数据框加载数据。
Psychic本笔记本介绍如何从 Psychic 加载文档。有关更多详细信息,请参见 这里。
PubMedPubMed® 由 国家生物技术信息中心,国家医学图书馆 提供,包含超过 3500 万条生物医学文献的引用,来源于 MEDLINE、生命科...
PyMuPDFPyMuPDF 针对速度进行了优化,并包含有关 PDF 及其页面的详细元数据。它每页返回一个文档。
PyPDFDirectoryLoader该加载器从特定目录加载所有PDF文件。
PyPDFium2加载器本笔记本提供了一个快速概述,帮助您开始使用PyPDFium2 文档加载器。有关所有ModuleNameLoader功能和配置的详细文档,请...
PyPDFLoader本笔记本提供了一个快速概述,帮助您开始使用 PyPDF 文档加载器。有关所有 DocumentLoader 功能和配置的详细文档,请访问 ...
PySpark本笔记介绍如何从一个 PySpark 数据框加载数据。
QuipQuip 是一款用于移动和Web的协作生产力软件套件。它允许一组人共同创建和编辑文档和电子表格,通常用于商业目的。
ReadTheDocs 文档Read the Docs 是一个开源的免费软件文档托管平台。它使用 Sphinx 文档生成器生成文档。
递归 URLRecursiveUrlLoader 允许您递归抓取根 URL 的所有子链接并将其解析为文档。
RedditReddit 是一个美国社交新闻聚合、内容评分和讨论网站。
RoamROAM 是一个用于网络思维的笔记工具,旨在创建个人知识库。
RocksetRockset 是一个实时分析数据库,可以在没有操作负担的情况下对大量半结构化数据进行查询。使用 Rockset,摄取的数据在一秒内可查询...
rspace本笔记本展示了如何使用RSpace文档加载器从RSpace电子实验室笔记导入研究笔记和文档到LangChain管道。
RSS 源这部分介绍如何将来自一系列 RSS 源 URL 的 HTML 新闻文章加载到我们可以在后续使用的文档格式中。
RSTA reStructured Text (RST) 文件是一种文本数据文件格式,主要用于Python编程语言社区的技术文档。
scrapflyScrapFly
ScrapingAnt概述
网站地图从 WebBaseLoader 扩展而来,SitemapLoader 从给定的 URL 加载网站地图,然后抓取并加载网站地图中的所有页面,...
SlackSlack 是一个即时消息程序。
雪花本笔记本介绍如何从雪花加载文档
源代码本笔记本介绍了如何使用一种特殊的方法加载源代码文件,采用语言解析:代码中的每个顶层函数和类被加载到单独的文档中。任何剩余的顶层代码(不在已...
蜘蛛蜘蛛 是最快和最实惠的爬虫和抓取工具,能够返回适合大型语言模型的数据。
SpreedlySpreedly 是一个允许您安全存储信用卡并使用它们与任意数量的支付网关和第三方API进行交易的服务。它通过同时提供卡片令牌化/保险库服...
StripeStripe 是一家爱尔兰-美国金融服务和软件即服务 (SaaS) 公司。它为电子商务网站和移动应用提供支付处理软件和应用程序编程接口。
副标题SubRip 文件格式 在 Matroska 多媒体容器格式网站上被描述为“可能是所有字幕格式中最基本的。” SubRip (SubRip...
SurrealDBSurrealDB 是一个端到端的云原生数据库,专为现代应用程序设计,包括网页、移动、无服务器、Jamstack、后端和传统应用程序。使用...
TelegramTelegram Messenger 是一个全球可访问的免费增值、跨平台、加密、基于云的集中式即时消息服务。该应用程序还提供可选的端到端加...
腾讯云 COS 目录腾讯云对象存储 (COS) 是一个分布式
腾讯云 COS 文件腾讯云对象存储 (COS) 是一个分布式
TensorFlow 数据集TensorFlow 数据集 是一个可供使用的数据集集合,适用于 TensorFlow 或其他 Python 机器学习框架,如 Jax。所...
TiDBTiDB Cloud,是一个综合的数据库即服务 (DBaaS) 解决方案,提供专用和无服务器选项。TiDB Serverless 现在将内...
2Markdown2markdown 服务将网站内容转换为结构化的markdown文件。
TOMLTOML 是一种配置文件的文件格式。它旨在易于阅读和编写,并设计为可以明确映射到字典。其规范是开源的。TOML 在许多编程语言中都有实现。...
TrelloTrello 是一个基于网络的项目管理和协作工具,允许个人和团队组织和跟踪他们的任务和项目。它提供了一个称为“看板”的可视化界面,用户可以...
TSVA 制表符分隔值 (TSV) 文件是一种简单的基于文本的文件格式,用于存储表格数据。[3] 记录由换行符分隔,记录内的值由制表符分隔。
推特推特 是一个在线社交媒体和社交网络服务。
非结构化本笔记本介绍如何使用 Unstructured 文档加载器 加载多种类型的文件。Unstructured 目前支持加载文本文件、幻灯片、h...
非结构化Markdown加载器本笔记本提供了一个快速概述,帮助您开始使用非结构化Markdown 文档加载器。有关所有 ModuleNameLoader 功能和配置的详...
非结构化PDF加载器概述
Upstage本笔记本介绍如何开始使用 UpstageLayoutAnalysisLoader。
URL本示例介绍如何从一系列 URLs 加载 HTML 文档到我们可以在后续使用的 Document 格式中。
Vsdx一个 Visio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关,这是一个图表创建软件。它存储有关图表的结构、布局和...
天气OpenWeatherMap 是一个开源天气服务提供商
WebBaseLoader这部分介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本到我们可以在后续使用的文档格式中。有关加载网页的更多自定义...
WhatsApp 聊天WhatsApp(也称为 WhatsApp Messenger)是一个免费、跨平台的集中式即时消息(IM)和语音通信(VoIP)服务。它允...
维基百科维基百科 是一个由志愿者社区(称为维基人)编写和维护的多语言免费在线百科全书,通过开放协作和使用名为MediaWiki的基于维基的编辑系统...
非结构化XML加载器本笔记本提供了关于如何使用非结构化XML加载器 文档加载器 的快速概述。UnstructuredXMLLoader 用于加载 XML 文件...
Xorbits Pandas 数据框本笔记本介绍了如何从 xorbits.pandas 数据框加载数据。
YouTube 音频在 YouTube 视频上构建聊天或问答应用程序是一个备受关注的话题。
YouTube 转录YouTube 是一个由谷歌创建的在线视频分享和社交媒体平台。
语雀语雀 是一个专业的基于云的知识库,用于团队协作和文档管理。

Was this page helpful?


You can also leave detailed feedback on GitHub.

扫我,入群扫我,找书