文档加载器

文档加载器将数据加载到标准的LangChain文档格式中。

每个文档加载器都有其特定的参数，但它们都可以通过.load方法以相同的方式调用。一个示例用例如下：

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # <-- Integration specific parameters here
)
data = loader.load()

网页

以下文档加载器允许您加载网页。

请参阅此指南以获取起点：如何：加载网页。

Document Loader	Description	Package/API
Web	Uses urllib and BeautifulSoup to load and parse HTML web pages	Package
Unstructured	Uses Unstructured to load and parse web pages	Package
RecursiveURL	Recursively scrapes all child links from a root URL	Package
Sitemap	Scrapes all pages on a given sitemap	Package
Firecrawl	API service that can be deployed locally, hosted version has free credits.	API

PDF

以下文档加载器允许您加载PDF文档。

请参阅此指南以获取起点：如何：加载PDF文件。

Document Loader	Description	Package/API
PyPDF	Uses `pypdf` to load and parse PDFs	Package
Unstructured	Uses Unstructured's open source library to load PDFs	Package
Amazon Textract	Uses AWS API to load PDFs	API
MathPix	Uses MathPix to laod PDFs	Package
PDFPlumber	Load PDF files using PDFPlumber	Package
PyPDFDirectry	Load a directory with PDF files	Package
PyPDFium2	Load PDF files using PyPDFium2	Package
PyMuPDF	Load PDF files using PyMuPDF	Package
PDFMiner	Load PDF files using PDFMiner	Package

云服务提供商

以下文档加载器允许您从您喜欢的云服务提供商加载文档。

Document Loader	Description	Partner Package	API reference
AWS S3 Directory	Load documents from an AWS S3 directory	❌	S3DirectoryLoader
AWS S3 File	Load documents from an AWS S3 file	❌	S3FileLoader
Azure AI Data	Load documents from Azure AI services	❌	AzureAIDataLoader
Azure Blob Storage Container	Load documents from an Azure Blob Storage container	❌	AzureBlobStorageContainerLoader
Azure Blob Storage File	Load documents from an Azure Blob Storage file	❌	AzureBlobStorageFileLoader
Dropbox	Load documents from Dropbox	❌	DropboxLoader
Google Cloud Storage Directory	Load documents from GCS bucket	✅	GCSDirectoryLoader
Google Cloud Storage File	Load documents from GCS file object	✅	GCSFileLoader
Google Drive	Load documents from Google Drive (Google Docs only)	✅	GoogleDriveLoader
Huawei OBS Directory	Load documents from Huawei Object Storage Service Directory	❌	OBSDirectoryLoader
Huawei OBS File	Load documents from Huawei Object Storage Service File	❌	OBSFileLoader
Microsoft OneDrive	Load documents from Microsoft OneDrive	❌	OneDriveLoader
Microsoft SharePoint	Load documents from Microsoft SharePoint	❌	SharePointLoader
Tencent COS Directory	Load documents from Tencent Cloud Object Storage Directory	❌	TencentCOSDirectoryLoader
Tencent COS File	Load documents from Tencent Cloud Object Storage File	❌	TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

Document Loader	API reference
Twitter	TwitterTweetLoader
Reddit	RedditPostsLoader

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

Document Loader	API reference
Telegram	TelegramChatFileLoader
WhatsApp	WhatsAppChatLoader
Discord	DiscordChatLoader
Facebook Chat	FacebookChatLoader
Mastodon	MastodonTootsLoader

生产力工具

以下文档加载器允许您从常用的生产力工具加载数据。

Document Loader	API reference
Figma	FigmaFileLoader
Notion	NotionDirectoryLoader
Slack	SlackDirectoryLoader
Quip	QuipLoader
Trello	TrelloLoader
Roam	RoamLoader
GitHub	GithubFileLoader

常见文件类型

以下文档加载器允许您从常见数据格式加载数据。

Document Loader	Data Type
CSVLoader	CSV files
DirectoryLoader	All files in a given directory
Unstructured	Many file types (see https://docs.unstructured.io/platform/supported-file-types)
JSONLoader	JSON files
BSHTMLLoader	HTML files

所有文档加载器

Name	Description
acreom	acreom 是一个以开发为先的知识库，任务在本地 markdown 文件上运行。
AirbyteLoader	Airbyte 是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录，支持数据仓库和...
Airtable	* 在这里获取您的API密钥。
阿里云 MaxCompute	阿里云 MaxCompute（之前称为 ODPS）是一个通用的、完全托管的、多租户数据处理平台，适用于大规模数据仓库。MaxCompute...
亚马逊 Textract	亚马逊 Textract 是一项机器学习 (ML) 服务，能够自动从扫描文档中提取文本、手写和数据。
Apify 数据集	Apify 数据集是一个可扩展的仅追加存储，具有顺序访问功能，专为存储结构化的网页抓取结果而构建，例如产品列表或 Google SERP...
ArcGIS	本笔记本演示了如何使用 langchaincommunity.documentloaders.ArcGISLoader 类。
ArxivLoader	arXiv 是一个开放获取的档案库，包含200万篇在物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学以及经济学领...
AssemblyAI 音频转录	AssemblyAIAudioTranscriptLoader 允许使用 AssemblyAI API 转录音频文件，并将转录的文本加载到...
AstraDB	DataStax Astra DB 是一个无服务器的支持向量的数据库，基于 Cassandra 构建，并通过易于使用的 JSON API ...
异步 Chromium	Chromium 是 Playwright 支持的浏览器之一，Playwright 是一个用于控制浏览器自动化的库。
异步HTML	AsyncHtmlLoader 从URL列表中并发加载原始HTML。
Athena	Amazon Athena 是一个无服务器的交互式分析服务，构建于
AWS S3 目录	亚马逊简单存储服务 (Amazon S3) 是一种对象存储服务
AWS S3 文件	亚马逊简单存储服务 (Amazon S3) 是一种对象存储服务。
AZLyrics	AZLyrics 是一个大型的、合法的、每天都在增长的歌词集合。
Azure AI 数据	Azure AI Studio 提供将数据资产上传到云存储并注册来自以下来源的现有数据资产的能力：
Azure Blob Storage 容器	Azure Blob Storage 是微软的云对象存储解决方案。Blob 存储经过优化，适合存储大量非结构化数据。非结构化数据是指不遵循...
Azure Blob 存储文件	Azure Files 提供完全托管的云文件共享，可以通过行业标准的服务器消息块 (SMB) 协议、网络文件系统 (NFS) 协议和 Az...
Azure AI 文档智能	Azure AI 文档智能（前称 Azure 表单识别器）是基于机器学习的
BibTeX	BibTeX 是一种文件格式和参考管理系统，通常与 LaTeX 排版一起使用。它作为一种组织和存储学术和研究文档的书目资料的方法。
哔哩哔哩	哔哩哔哩是中国最受欢迎的长视频网站之一。
Blackboard	Blackboard Learn（之前称为Blackboard学习管理系统）是由Blackboard Inc.开发的基于网络的虚拟学习环境...
区块链	概述
Box	本笔记本提供了关于如何使用 Box 文档加载器的快速概述。有关所有 BoxLoader 功能和配置的详细文档，请访问 API 参考。
Brave Search	Brave Search 是由 Brave Software 开发的搜索引擎。
Browserbase	Browserbase 是一个开发者平台，用于可靠地运行、管理和监控无头浏览器。
无头浏览器	无头浏览器是一个服务，允许您在云中运行无头 Chrome 实例。这是以规模运行基于浏览器的自动化的好方法，而无需担心管理自己的基础设施。
BSHTMLLoader	本笔记本提供了一个快速概述，帮助您开始使用 BeautifulSoup4 文档加载器。有关所有 ModuleNameLoader 功能和配...
Cassandra	Cassandra 是一个 NoSQL、行导向、高度可扩展和高度可用的数据库。从 5.0 版本开始，数据库提供了向量搜索功能。
ChatGPT 数据	ChatGPT 是由 OpenAI 开发的人工智能 (AI) 聊天机器人。
CollegeConfidential	CollegeConfidential 提供关于3800多所大学的信息。
并发加载器	与GenericLoader的工作方式相同，但为那些选择优化工作流程的人提供并发处理。
Confluence	Confluence 是一个维基协作平台，用于保存和组织所有与项目相关的材料。Confluence 是一个主要处理内容管理活动的知识库。
CoNLL-U	CoNLL-U 是 CoNLL-X 格式的修订版。注释以纯文本文件（UTF-8，标准化为 NFC，仅使用 LF 字符作为换行符，文件末尾包...
复制粘贴	本笔记本介绍如何从您想要复制和粘贴的内容加载文档对象。在这种情况下，您甚至不需要使用文档加载器，而是可以直接构造文档。
Couchbase	Couchbase 是一个屡获殊荣的分布式 NoSQL 云数据库，提供无与伦比的多功能性、性能、可扩展性和财务价值，适用于您的所有云、移动...
CSV	A 逗号分隔值 (CSV) 文件是一个使用逗号分隔值的分隔文本文件。文件的每一行都是一个数据记录。每个记录由一个或多个字段组成，字段之间用...
Cube 语义层	本笔记本演示了以适合传递给大型语言模型（LLMs）作为嵌入的格式检索 Cube 数据模型元数据的过程，从而增强上下文信息。
Datadog 日志	Datadog 是一个用于云规模应用的监控和分析平台。
Dedoc	此示例演示了如何将 Dedoc 与 LangChain 结合使用作为文档加载器。
Diffbot	Diffbot 是一套基于机器学习的产品，旨在简化网页数据的结构化处理。
Discord	Discord 是一个VoIP和即时消息社交平台。用户可以通过语音通话、视频通话、文本消息、媒体和文件在私人聊天或称为“服务器”的社区中进...
Docugami	本笔记本介绍了如何从 Docugami 加载文档。它提供了使用该系统相对于其他数据加载器的优势。
Docusaurus	Docusaurus 是一个静态网站生成器，提供开箱即用的文档功能。
Dropbox	Dropbox 是一个文件托管服务，将传统文件、云内容和网页快捷方式汇聚在一个地方。
DuckDB	DuckDB 是一个内嵌式 SQL OLAP 数据库管理系统。
邮件	本笔记本展示了如何加载电子邮件（.eml）或 Microsoft Outlook（.msg）文件。
EPub	EPUB 是一种电子书文件格式，使用 ".epub" 文件扩展名。该术语是电子出版物的缩写，有时被称为 ePub。EPUB 被许多电子阅读...
Etherscan	Etherscan 是领先的区块链浏览器、搜索、API 和分析平台，专为以太坊设计，
EverNote	EverNote 旨在归档和创建可以嵌入照片、音频和保存的网页内容的笔记。笔记存储在虚拟“笔记本”中，可以进行标签、注释、编辑、搜索和导出。
example_data
Facebook 聊天	Messenger) 是由 Meta Platforms 开发的美国专有即时通讯应用程序和平台。最初在2008年作为 Facebook 聊...
Fauna	Fauna 是一个文档数据库。
Figma	Figma 是一个用于界面设计的协作网页应用程序。
FireCrawl	FireCrawl 爬取并将任何网站转换为适合大型语言模型的数据。它爬取所有可访问的子页面，并为每个页面提供干净的Markdown和元数据...
Geopandas	Geopandas 是一个开源项目，旨在简化在 Python 中处理地理空间数据的工作。
Git	Git 是一个分布式版本控制系统，用于跟踪任何计算机文件集的更改，通常用于协调程序员在软件开发过程中协作开发源代码的工作。
GitBook	GitBook 是一个现代文档平台，团队可以在这里记录从产品到内部知识库和API的所有内容。
GitHub	本笔记展示了如何加载给定仓库在GitHub上的问题和拉取请求（PR）。还展示了如何加载给定仓库在GitHub上的文件。我们将以LangCh...
Glue Catalog	AWS Glue 数据目录是一个集中式元数据存储库，允许您管理、访问和共享存储在 AWS 中的数据的元数据。它充当您数据资产的元数据存储，...
Google AlloyDB for PostgreSQL	AlloyDB 是一个完全托管的关系数据库服务，提供高性能、无缝集成和令人印象深刻的可扩展性。AlloyDB 与 PostgreSQL 1...
Google BigQuery	Google BigQuery 是一个无服务器且具有成本效益的企业数据仓库，能够跨云工作并随着您的数据进行扩展。
Google Bigtable	Bigtable 是一个键值和宽列存储，适合快速访问结构化、半结构化或非结构化数据。扩展您的数据库应用程序，构建利用 Bigtable 的...
Google Cloud SQL for SQL server	Cloud SQL 是一个完全托管的关系数据库服务，提供高性能、无缝集成和令人印象深刻的可扩展性。它提供 MySQL、PostgreSQL...
Google Cloud SQL for MySQL	Cloud SQL 是一个完全托管的关系数据库服务，提供高性能、无缝集成和令人印象深刻的可扩展性。它提供 MySQL、PostgreSQL...
Google Cloud SQL for PostgreSQL	Cloud SQL for PostgreSQL 是一个完全托管的数据库服务，帮助您在 Google Cloud Platform 上设置...
Google Cloud Storage 目录	Google Cloud Storage 是一个用于存储非结构化数据的托管服务。
Google Cloud Storage 文件	Google Cloud Storage 是一个用于存储非结构化数据的托管服务。
Google Firestore 在 Datastore 模式下	Datastore 模式下的 Firestore 是一个为自动扩展、高性能和简化应用开发而构建的 NoSQL 文档数据库。扩展您的数据库应...
Google Drive	Google Drive 是由 Google 开发的文件存储和同步服务。
Google El Carro for Oracle Workloads	Google El Carro Oracle Operator
Google Firestore (原生模式)	Firestore 是一个无服务器的文档导向数据库，可以根据需求进行扩展。通过利用 Firestore 的 LangChain 集成，扩展...
Google Memorystore for Redis	Google Memorystore for Redis 是一个完全托管的服务，基于 Redis 内存数据存储构建应用程序缓存，提供亚毫秒...
Google Spanner	Spanner 是一个高度可扩展的数据库，结合了无限的可扩展性和关系语义，如二级索引、强一致性、模式和 SQL，提供 99.999% 的可...
Google 语音转文本音频转录	SpeechToTextLoader 允许使用 Google Cloud Speech-to-Text API 转录音频文件，并将转录的文...
Grobid	GROBID 是一个用于提取、解析和重构原始文档的机器学习库。
古腾堡	古腾堡计划是一个免费的电子书在线图书馆。
Hacker News	Hacker News（有时缩写为HN）是一个专注于计算机科学和创业的社交新闻网站。它由投资基金和创业孵化器Y Combinator运营。...
华为 OBS 目录	以下代码演示了如何将华为 OBS（对象存储服务）中的对象加载为文档。
华为 OBS 文件	以下代码演示了如何将华为 OBS（对象存储服务）中的对象加载为文档。
HuggingFace 数据集	Hugging Face Hub 拥有超过 5,000 个数据集，涵盖 100 多种语言，可用于自然语言处理、计算机视觉和音频等广泛任务...
iFixit	iFixit 是网络上最大的开放维修社区。该网站包含近10万份维修手册、20万条关于4.2万种设备的问题与答案，所有数据均根据CC-BY-...
图片	这部分介绍了如何将图像加载到我们可以在其他LangChain模块中使用的文档格式中。
图像标题	默认情况下，加载器使用预训练的 Salesforce BLIP 图像标题生成模型。
IMSDb	IMSDb 是互联网电影剧本数据库。
Iugu	Iugu 是一家巴西的服务和软件即服务 (SaaS) 公司。它为电子商务网站和移动应用程序提供支付处理软件和应用程序编程接口。
Joplin	Joplin 是一个开源的笔记应用程序。捕捉你的想法，并可以从任何设备安全访问它们。
JSONLoader	本笔记本提供了关于如何使用 JSON 文档加载器的快速概述。有关所有 JSONLoader 功能和配置的详细文档，请访问 API 参考。
Jupyter Notebook	Jupyter Notebook（前称 IPython Notebook）是一个基于网页的交互式计算环境，用于创建笔记本文档。
Kinetica	本笔记本介绍了如何从Kinetica加载文档
lakeFS	lakeFS 提供对数据湖的可扩展版本控制，并使用类似 Git 的语义来创建和访问这些版本。
LangSmith	本笔记本提供了一个快速概述，帮助您开始使用 LangSmith 文档加载器。有关所有 LangSmithLoader 功能和配置的详细文档...
LarkSuite (飞书)	LarkSuite 是字节跳动开发的企业协作平台。
LLM Sherpa	本笔记本介绍如何使用 LLM Sherpa 加载多种类型的文件。LLM Sherpa 支持多种文件格式，包括 DOCX、PPTX、HTML...
Mastodon	Mastodon 是一个联邦社交媒体和社交网络服务。
MathPixPDFLoader	灵感来自于 Daniel Gross 的代码片段： https://gist.github.com/danielgross/3ab4104...
MediaWiki 转储	MediaWiki XML 转储包含了一个维基的内容（维基页面及其所有修订），不包括与站点相关的数据。XML 转储并不创建维基数据库的完...
合并文档加载器	合并从一组指定文档加载器返回的文档。
mhtml	MHTML是一种用于电子邮件和归档网页的格式。MHTML，有时称为MHT，代表MIME HTML，是一个将整个网页归档为单个文件的格式。当...
Microsoft Excel	UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。该加载器支持 .xlsx 和 .xls 文...
Microsoft OneDrive	Microsoft OneDrive（前称 SkyDrive）是由微软运营的文件托管服务。
Microsoft OneNote	本笔记本涵盖如何从 OneNote 加载文档。
Microsoft PowerPoint	Microsoft PowerPoint 是微软的一款演示程序。
Microsoft SharePoint	Microsoft SharePoint 是一个基于网站的协作系统，使用工作流应用程序、“列表”数据库以及其他网页组件和安全功能，旨在帮助...
Microsoft Word	Microsoft Word 是由微软开发的文字处理软件。
Near Blockchain	概述
现代财政	现代财政简化复杂的支付操作。它是一个统一的平台，用于支持移动资金的产品和流程。
MongoDB	MongoDB 是一个 NoSQL 文档导向数据库，支持具有动态模式的类似 JSON 的文档。
新闻网址	这部分介绍了如何将来自网址列表的HTML新闻文章加载为我们可以在后续使用的文档格式。
Notion 数据库 2/2	Notion 是一个具有修改过的 Markdown 支持的协作平台，集成了看板、任务、维基和数据库。它是一个用于笔记、知识和数据管理以及项...
Nuclia	Nuclia 自动从任何内部和外部来源自动索引您的非结构化数据，提供优化的搜索结果和生成的答案。它可以处理视频和音频转录、图像内容提取和文...
Obsidian	Obsidian 是一个强大且可扩展的知识库
开放文档格式 (ODT)	办公应用程序开放文档格式 (ODF)，也称为 OpenDocument，是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式，使...
开放城市数据	Socrata 提供城市开放数据的API。
Oracle 自主数据库	Oracle 自主数据库是一个云数据库，使用机器学习来自动化数据库调优、安全性、备份、更新和其他传统上由数据库管理员执行的日常管理任务。
Oracle AI 向量搜索：文档处理	Oracle AI 向量搜索旨在处理人工智能 (AI) 工作负载，允许您基于语义而非关键字查询数据。
Org-mode	A Org Mode 文档是一种文档编辑、格式化和组织模式，旨在用于在自由软件文本编辑器 Emacs 中进行笔记、规划和创作。
Pandas 数据框	本笔记本介绍了如何从 pandas 数据框加载数据。
PDFMiner	概述
PDFPlumber	与 PyMuPDF 类似，输出的文档包含关于 PDF 及其页面的详细元数据，并且每页返回一个文档。
Pebblo 安全文档加载器	Pebblo 使开发者能够安全地加载数据，并在不担心组织的合规性和安全要求的情况下，将他们的生成 AI 应用程序推广到部署。该项目识别加载...
Polars 数据框	本笔记本介绍了如何从 polars 数据框加载数据。
Psychic	本笔记本介绍如何从 Psychic 加载文档。有关更多详细信息，请参见这里。
PubMed	PubMed® 由国家生物技术信息中心，国家医学图书馆提供，包含超过 3500 万条生物医学文献的引用，来源于 MEDLINE、生命科...
PyMuPDF	PyMuPDF 针对速度进行了优化，并包含有关 PDF 及其页面的详细元数据。它每页返回一个文档。
PyPDFDirectoryLoader	该加载器从特定目录加载所有PDF文件。
PyPDFium2加载器	本笔记本提供了一个快速概述，帮助您开始使用PyPDFium2 文档加载器。有关所有ModuleNameLoader功能和配置的详细文档，请...
PyPDFLoader	本笔记本提供了一个快速概述，帮助您开始使用 PyPDF 文档加载器。有关所有 DocumentLoader 功能和配置的详细文档，请访问 ...
PySpark	本笔记介绍如何从一个 PySpark 数据框加载数据。
Quip	Quip 是一款用于移动和Web的协作生产力软件套件。它允许一组人共同创建和编辑文档和电子表格，通常用于商业目的。
ReadTheDocs 文档	Read the Docs 是一个开源的免费软件文档托管平台。它使用 Sphinx 文档生成器生成文档。
递归 URL	RecursiveUrlLoader 允许您递归抓取根 URL 的所有子链接并将其解析为文档。
Reddit	Reddit 是一个美国社交新闻聚合、内容评分和讨论网站。
Roam	ROAM 是一个用于网络思维的笔记工具，旨在创建个人知识库。
Rockset	Rockset 是一个实时分析数据库，可以在没有操作负担的情况下对大量半结构化数据进行查询。使用 Rockset，摄取的数据在一秒内可查询...
rspace	本笔记本展示了如何使用RSpace文档加载器从RSpace电子实验室笔记导入研究笔记和文档到LangChain管道。
RSS 源	这部分介绍如何将来自一系列 RSS 源 URL 的 HTML 新闻文章加载到我们可以在后续使用的文档格式中。
RST	A reStructured Text (RST) 文件是一种文本数据文件格式，主要用于Python编程语言社区的技术文档。
scrapfly	ScrapFly
ScrapingAnt	概述
网站地图	从 WebBaseLoader 扩展而来，SitemapLoader 从给定的 URL 加载网站地图，然后抓取并加载网站地图中的所有页面，...
Slack	Slack 是一个即时消息程序。
雪花	本笔记本介绍如何从雪花加载文档
源代码	本笔记本介绍了如何使用一种特殊的方法加载源代码文件，采用语言解析：代码中的每个顶层函数和类被加载到单独的文档中。任何剩余的顶层代码（不在已...
蜘蛛	蜘蛛是最快和最实惠的爬虫和抓取工具，能够返回适合大型语言模型的数据。
Spreedly	Spreedly 是一个允许您安全存储信用卡并使用它们与任意数量的支付网关和第三方API进行交易的服务。它通过同时提供卡片令牌化/保险库服...
Stripe	Stripe 是一家爱尔兰-美国金融服务和软件即服务 (SaaS) 公司。它为电子商务网站和移动应用提供支付处理软件和应用程序编程接口。
副标题	SubRip 文件格式在 Matroska 多媒体容器格式网站上被描述为“可能是所有字幕格式中最基本的。” SubRip (SubRip...
SurrealDB	SurrealDB 是一个端到端的云原生数据库，专为现代应用程序设计，包括网页、移动、无服务器、Jamstack、后端和传统应用程序。使用...
Telegram	Telegram Messenger 是一个全球可访问的免费增值、跨平台、加密、基于云的集中式即时消息服务。该应用程序还提供可选的端到端加...
腾讯云 COS 目录	腾讯云对象存储 (COS) 是一个分布式
腾讯云 COS 文件	腾讯云对象存储 (COS) 是一个分布式
TensorFlow 数据集	TensorFlow 数据集是一个可供使用的数据集集合，适用于 TensorFlow 或其他 Python 机器学习框架，如 Jax。所...
TiDB	TiDB Cloud，是一个综合的数据库即服务 (DBaaS) 解决方案，提供专用和无服务器选项。TiDB Serverless 现在将内...
2Markdown	2markdown 服务将网站内容转换为结构化的markdown文件。
TOML	TOML 是一种配置文件的文件格式。它旨在易于阅读和编写，并设计为可以明确映射到字典。其规范是开源的。TOML 在许多编程语言中都有实现。...
Trello	Trello 是一个基于网络的项目管理和协作工具，允许个人和团队组织和跟踪他们的任务和项目。它提供了一个称为“看板”的可视化界面，用户可以...
TSV	A 制表符分隔值 (TSV) 文件是一种简单的基于文本的文件格式，用于存储表格数据。[3] 记录由换行符分隔，记录内的值由制表符分隔。
推特	推特是一个在线社交媒体和社交网络服务。
非结构化	本笔记本介绍如何使用 Unstructured 文档加载器加载多种类型的文件。Unstructured 目前支持加载文本文件、幻灯片、h...
非结构化Markdown加载器	本笔记本提供了一个快速概述，帮助您开始使用非结构化Markdown 文档加载器。有关所有 ModuleNameLoader 功能和配置的详...
非结构化PDF加载器	概述
Upstage	本笔记本介绍如何开始使用 UpstageLayoutAnalysisLoader。
URL	本示例介绍如何从一系列 URLs 加载 HTML 文档到我们可以在后续使用的 Document 格式中。
Vsdx	一个 Visio 文件（扩展名为 .vsdx）与 Microsoft Visio 相关，这是一个图表创建软件。它存储有关图表的结构、布局和...
天气	OpenWeatherMap 是一个开源天气服务提供商
WebBaseLoader	这部分介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本到我们可以在后续使用的文档格式中。有关加载网页的更多自定义...
WhatsApp 聊天	WhatsApp（也称为 WhatsApp Messenger）是一个免费、跨平台的集中式即时消息（IM）和语音通信（VoIP）服务。它允...
维基百科	维基百科是一个由志愿者社区（称为维基人）编写和维护的多语言免费在线百科全书，通过开放协作和使用名为MediaWiki的基于维基的编辑系统...
非结构化XML加载器	本笔记本提供了关于如何使用非结构化XML加载器文档加载器的快速概述。UnstructuredXMLLoader 用于加载 XML 文件...
Xorbits Pandas 数据框	本笔记本介绍了如何从 xorbits.pandas 数据框加载数据。
YouTube 音频	在 YouTube 视频上构建聊天或问答应用程序是一个备受关注的话题。
YouTube 转录	YouTube 是一个由谷歌创建的在线视频分享和社交媒体平台。
语雀	语雀是一个专业的基于云的知识库，用于团队协作和文档管理。

文档加载器

网页

PDF

云服务提供商

社交平台

消息服务

生产力工具

常见文件类型

所有文档加载器

Was this page helpful?

You can also leave detailed feedback on GitHub.

网页​

PDF​

云服务提供商​

社交平台​

消息服务​

生产力工具​

常见文件类型​

所有文档加载器​

Was this page helpful?

You can also leave detailed feedback on GitHub.

网页

PDF

云服务提供商

社交平台

消息服务

生产力工具

常见文件类型

所有文档加载器