文档加载器
文档加载器将数据加载到标准的LangChain文档格式中。
每个文档加载器都有其特定的参数,但它们都可以通过.load方法以相同的方式调用。 一个示例用例如下:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
    ...  # <-- Integration specific parameters here
)
data = loader.load()
网页
以下文档加载器允许 您加载网页。
请参阅此指南以获取起点:如何:加载网页。
| Document Loader | Description | Package/API | 
|---|---|---|
| Web | Uses urllib and BeautifulSoup to load and parse HTML web pages | Package | 
| Unstructured | Uses Unstructured to load and parse web pages | Package | 
| RecursiveURL | Recursively scrapes all child links from a root URL | Package | 
| Sitemap | Scrapes all pages on a given sitemap | Package | 
| Firecrawl | API service that can be deployed locally, hosted version has free credits. | API | 
PDF
以下文档加载器允许您加载PDF文档。
请参阅此指南以获取起点:如何:加载PDF文件。
| Document Loader | Description | Package/API | 
|---|---|---|
| PyPDF | Uses `pypdf` to load and parse PDFs | Package | 
| Unstructured | Uses Unstructured's open source library to load PDFs | Package | 
| Amazon Textract | Uses AWS API to load PDFs | API | 
| MathPix | Uses MathPix to laod PDFs | Package | 
| PDFPlumber | Load PDF files using PDFPlumber | Package | 
| PyPDFDirectry | Load a directory with PDF files | Package | 
| PyPDFium2 | Load PDF files using PyPDFium2 | Package | 
| PyMuPDF | Load PDF files using PyMuPDF | Package | 
| PDFMiner | Load PDF files using PDFMiner | Package | 
云服务提供商
以下文档加载器允许您从您喜欢的云服务提供商加载文档。
| Document Loader | Description | Partner Package | API reference | 
|---|---|---|---|
| AWS S3 Directory | Load documents from an AWS S3 directory | ❌ | S3DirectoryLoader | 
| AWS S3 File | Load documents from an AWS S3 file | ❌ | S3FileLoader | 
| Azure AI Data | Load documents from Azure AI services | ❌ | AzureAIDataLoader | 
| Azure Blob Storage Container | Load documents from an Azure Blob Storage container | ❌ | AzureBlobStorageContainerLoader | 
| Azure Blob Storage File | Load documents from an Azure Blob Storage file | ❌ | AzureBlobStorageFileLoader | 
| Dropbox | Load documents from Dropbox | ❌ | DropboxLoader | 
| Google Cloud Storage Directory | Load documents from GCS bucket | ✅ | GCSDirectoryLoader | 
| Google Cloud Storage File | Load documents from GCS file object | ✅ | GCSFileLoader | 
| Google Drive | Load documents from Google Drive (Google Docs only) | ✅ | GoogleDriveLoader | 
| Huawei OBS Directory | Load documents from Huawei Object Storage Service Directory | ❌ | OBSDirectoryLoader | 
| Huawei OBS File | Load documents from Huawei Object Storage Service File | ❌ | OBSFileLoader | 
| Microsoft OneDrive | Load documents from Microsoft OneDrive | ❌ | OneDriveLoader | 
| Microsoft SharePoint | Load documents from Microsoft SharePoint | ❌ | SharePointLoader | 
| Tencent COS Directory | Load documents from Tencent Cloud Object Storage Directory | ❌ | TencentCOSDirectoryLoader | 
| Tencent COS File | Load documents from Tencent Cloud Object Storage File | ❌ | TencentCOSFileLoader | 
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
| Document Loader | API reference | 
|---|---|
| TwitterTweetLoader | |
| RedditPostsLoader | 
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
| Document Loader | API reference | 
|---|---|
| Telegram | TelegramChatFileLoader | 
| WhatsAppChatLoader | |
| Discord | DiscordChatLoader | 
| Facebook Chat | FacebookChatLoader | 
| Mastodon | MastodonTootsLoader | 
生产力工具
以下 文档加载器允许您从常用的生产力工具加载数据。
| Document Loader | API reference | 
|---|---|
| Figma | FigmaFileLoader | 
| Notion | NotionDirectoryLoader | 
| Slack | SlackDirectoryLoader | 
| Quip | QuipLoader | 
| Trello | TrelloLoader | 
| Roam | RoamLoader | 
| GitHub | GithubFileLoader | 
常见文件类型
以下文档加载器允许您从常见数据格式加载数据。
| Document Loader | Data Type | 
|---|---|
| CSVLoader | CSV files | 
| DirectoryLoader | All files in a given directory | 
| Unstructured | Many file types (see https://docs.unstructured.io/platform/supported-file-types) | 
| JSONLoader | JSON files | 
| BSHTMLLoader | HTML files | 
所有文档加载器
| Name | Description | 
|---|---|
| acreom | acreom 是一个以开发为先的知识库,任务在本地 markdown 文件上运行。 | 
| AirbyteLoader | Airbyte 是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,支持数据仓库和... | 
| Airtable | * 在这里获取您的API密钥。 | 
| 阿里云 MaxCompute | 阿里云 MaxCompute(之前称为 ODPS)是一个通用的、完全托管的、多租户数据处理平台,适用于大规模数据仓库。MaxCompute... | 
| 亚马逊 Textract | 亚马逊 Textract 是一项机器学习 (ML) 服务,能够自动从扫描文档中提取文本、手写和数据。 | 
| Apify 数据集 | Apify 数 据集 是一个可扩展的仅追加存储,具有顺序访问功能,专为存储结构化的网页抓取结果而构建,例如产品列表或 Google SERP... | 
| ArcGIS | 本笔记本演示了如何使用 langchaincommunity.documentloaders.ArcGISLoader 类。 | 
| ArxivLoader | arXiv 是一个开放获取的档案库,包含200万篇在物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学以及经济学领... | 
| AssemblyAI 音频转录 | AssemblyAIAudioTranscriptLoader 允许使用 AssemblyAI API 转录音频文件,并将转录的文本加载到... | 
| AstraDB | DataStax Astra DB 是一个无服务器的支持向量的数据库,基于 Cassandra 构建,并通过易于使用的 JSON API ... | 
| 异步 Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个用于控制浏览器自动化的库。 | 
| 异步HTML | AsyncHtmlLoader 从URL列表中并发加载原始HTML。 | 
| Athena | Amazon Athena 是一个无服务器的交互式分析服务,构建于 | 
| AWS S3 目录 | 亚马逊简单存储服务 (Amazon S3) 是一种对象存储服务 | 
| AWS S3 文件 | 亚马逊简单存储服务 (Amazon S3) 是一种对象存储服务。 | 
| AZLyrics | AZLyrics 是一个大型的、合法的、每天都在增长的歌词集合。 | 
| Azure AI 数据 | Azure AI Studio 提供将数据资产上传到云存储并注册来自以下来源的现有数据资产的能力: | 
| Azure Blob Storage 容器 | Azure Blob Storage 是微软的云对象存储解决方案。Blob 存储经过优化,适合存储大量非结构化数据。非结构化数据是指不遵循... | 
| Azure Blob 存储文件 | Azure Files 提供完全托管的云文件共享,可以通过行业标准的服务器消息块 (SMB) 协议、网络文件系统 (NFS) 协议和 Az... | 
| Azure AI 文档智能 | Azure AI 文档智能(前称 Azure 表单识别器)是基于机器学习的 | 
| BibTeX | BibTeX 是一种文件格式和参考管理系统,通常与 LaTeX 排版一起使用。它作为一种组织和存储学术和研究文档的书目资料的方法。 | 
| 哔哩哔哩 | 哔哩哔哩 是中国最受欢迎的长视频网站之一。 | 
| Blackboard | Blackboard Learn(之前称为Blackboard学习管理系统)是由Blackboard Inc.开发的基于网络的虚拟学习环境... | 
| 区块链 | 概述 | 
| Box | 本笔记本提供了关于如何使用 Box 文档加载器 的快速概述。有关所有 BoxLoader 功能和配置的详细文档,请访问 API 参考。 | 
| Brave Search | Brave Search 是由 Brave Software 开发的搜索引擎。 | 
| Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和监控无头浏览器。 | 
| 无头浏览器 | 无头浏览器是一个服务,允许您在云中运行无头 Chrome 实例。这是以规模运行基于浏览器的自动化的好方法,而无需担心管理自己的基础设施。 | 
| BSHTMLLoader | 本笔记本提供了一个快速概述,帮助您开始使用 BeautifulSoup4 文档加载器。有关所有 ModuleNameLoader 功能和配... | 
| Cassandra | Cassandra 是一个 NoSQL、行导向、高度可扩展和高度可用的数据库。从 5.0 版本开始,数据库提供了 向量搜索功能。 | 
| ChatGPT 数据 | ChatGPT 是由 OpenAI 开发的人工智能 (AI) 聊天机器人。 | 
| CollegeConfidential | CollegeConfidential 提供关于3800多所大学的信息。 | 
| 并发加载器 | 与GenericLoader的工作方式相同,但为那些选择优化工作流程的人提供并发处理。 | 
| Confluence | Confluence 是一个维基协作平台,用于保存和组织所有与项目相关的材料。Confluence 是一个主要处理内容管理活动的知识库。 | 
| CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版。注释以纯文本文件(UTF-8,标准化为 NFC,仅使用 LF 字符作为换行符,文件末尾包... | 
| 复制粘贴 | 本笔记本介绍如何从您想要复制和粘贴的内容加载文档对象。在这种情况下,您甚至不需要使用文档加载器,而是可以直接构造文档。 | 
| Couchbase | Couchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,提供无与伦比的多功能性、性能、可扩展性和财务价值,适用于您的所有云、移动... | 
| CSV | A 逗号分隔值 (CSV) 文件是一个使用逗号分隔值的分隔文本文件。文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,字段之间用... | 
| Cube 语义层 | 本笔记本演示了以适合传递给大型语言模型(LLMs)作为嵌入的格式检索 Cube 数据模型元数据的过程,从而增强上下文信息。 | 
| Datadog 日志 | Datadog 是一个用于云规模应用的监控和分析平台。 | 
| Dedoc | 此示例演示了如何将 Dedoc 与 LangChain 结合使用作为 文档加载器。 | 
| Diffbot | Diffbot 是一套基于机器学习的产品,旨在简化网页数据的结构化处理。 | 
| Discord | Discord 是一个VoIP和即时消息社交平台。用户可以通过语音通话、视频通话、文本消息、媒体和文件在私人聊天或称为“服务器”的社区中进... | 
| Docugami | 本笔记本介绍了如何从 Docugami 加载文档。它提供了使用该系统相对于其他数据加载器的优势。 | 
| Docusaurus | Docusaurus 是一个静态网站生成器,提供开箱即用的文档功能。 | 
| Dropbox | Dropbox 是一个文件托管服务,将传统文件、云内容和网页快捷方式汇聚在一个地方。 | 
| DuckDB | DuckDB 是一个内嵌式 SQL OLAP 数据库管理系统。 | 
| 邮件 | 本笔记本展示了如何加载电子邮件(.eml)或 Microsoft Outlook(.msg)文件。 | 
| EPub | EPUB 是一种电子书文件格式,使用 ".epub" 文件扩展名。该术语是电子出版物的缩写,有时被称为 ePub。EPUB 被许多电子阅读... | 
| Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和分析平台,专为以太坊设计, | 
| EverNote | EverNote 旨在归档和创建可以嵌入照片、音频和保存的网页内容的笔记。笔记存储在虚拟“笔记本”中,可以进行标签、注释、编辑、搜索和导出。 | 
| example_data | |
| Facebook 聊天 | Messenger) 是由 Meta Platforms 开发的美国专有即时通讯应用程序和平台。最初在2008年作为 Facebook 聊... | 
| Fauna | Fauna 是一 个文档数据库。 | 
| Figma | Figma 是一个用于界面设计的协作网页应用程序。 | 
| FireCrawl | FireCrawl 爬取并将任何网站转换为适合大型语言模型的数据。它爬取所有可访问的子页面,并为每个页面提供干净的Markdown和元数据... | 
| Geopandas | Geopandas 是一个开源项目,旨在简化在 Python 中处理地理空间数据的工作。 | 
| Git | Git 是一个分布式版本控制系统,用于跟踪任何计算机文件集的更改,通常用于协调程序员在软件开发过程中协作开发源代码的工作。 | 
| GitBook | GitBook 是一个现代文档平台,团队可以在这里记录从产品到内部知识库和API的所有内容。 | 
| GitHub | 本笔记展示了如何加载给定仓库在GitHub上的问题和拉取请求(PR)。还展示了如何加载给定仓库在GitHub上的文件。我们将以LangCh... | 
| Glue Catalog | AWS Glue 数据目录是一个集中式元数据存储库,允许您管理、访问和共享存储在 AWS 中的数据的元数据。它充当您数据资产的元数据存储,... | 
| Google AlloyDB for PostgreSQL | AlloyDB 是一个完全托管的关系数据库服务,提供高性能、无缝集成和令人印象深刻的可扩展性。AlloyDB 与 PostgreSQL 1... | 
| Google BigQuery | Google BigQuery 是一个无服务器且具有成本效益的企业数据仓库,能够跨云工作并随着您的数据进行扩展。 | 
| Google Bigtable | Bigtable 是一个键值和宽列存储,适合快速访问结构化、半结构化或非结构化数据。扩展您的数据库应用程序,构建利用 Bigtable 的... | 
| Google Cloud SQL for SQL server | Cloud SQL 是一个完全托管的关系数据库服务,提供高性能、无缝集成和令人印象深刻的可扩展性。它提供 MySQL、PostgreSQL... | 
| Google Cloud SQL for MySQL | Cloud SQL 是一个完全托管的关系数据库服务,提供高性能、无缝集成和令人印象深刻的可扩展性。它提供 MySQL、PostgreSQL... | 
| Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一个完全托管的数据库服务,帮助您在 Google Cloud Platform 上设置... | 
| Google Cloud Storage 目录 | Google Cloud Storage 是一个用于存储非结构化数据的托管服务。 | 
| Google Cloud Storage 文件 | Google Cloud Storage 是一个用于存储非结构化数据的托管服务。 | 
| Google Firestore 在 Datastore 模式下 | Datastore 模式下的 Firestore 是一个为自动扩展、高性能和简化应用开发而构建的 NoSQL 文档数据库。扩展您的数据库应... | 
| Google Drive | Google Drive 是由 Google 开发的文件存储和同步服务。 | 
| Google El Carro for Oracle Workloads | Google El Carro Oracle Operator | 
| Google Firestore (原生模式) | Firestore 是一个无服务器的文档导向数据库,可以根据需求进行扩展。通过利用 Firestore 的 LangChain 集成,扩展... | 
| Google Memorystore for Redis | Google Memorystore for Redis 是一个完全托管的服务,基于 Redis 内存数据存储构建应用程序缓存,提供亚毫秒... | 
| Google Spanner | Spanner 是一个高度可扩展的数据库,结合了无限的可扩展性和关系语义,如二级索引、强一致性、模式和 SQL,提供 99.999% 的可... | 
| Google 语音转文本音频转录 | SpeechToTextLoader 允许使用 Google Cloud Speech-to-Text API 转录音频文件,并将转录的文... | 
| Grobid | GROBID 是一个用于提取、解析和重构原始文档的机器学习库。 | 
| 古腾堡 | 古腾堡计划 是一个免费的电子书在线图书馆。 | 
| Hacker News | Hacker News(有时缩写为HN)是一个专注于计算机科学和创业的社交新闻网站。它由投资基金和创业孵化器Y Combinator运营。... | 
| 华为 OBS 目录 | 以下代码演示了如何将华为 OBS(对象存储服务)中的对象加载为文档。 | 
| 华为 OBS 文件 | 以下代码演示了如何将华为 OBS(对象存储服务)中的对象加载为文档。 | 
| HuggingFace 数据集 | Hugging Face Hub 拥有超过 5,000 个 数据集,涵盖 100 多种语言,可用于自然语言处理、计算机视觉和音频等广泛任务... | 
| iFixit | iFixit 是网络上最大的开放维修社区。该网站包含近10万份维修手册、20万条关于4.2万种设备的问题与答案,所有数据均根据CC-BY-... | 
| 图片 | 这部分介绍了如何将图像加载到我们可以在其他LangChain模块中使用的文档格式中。 | 
| 图像标题 | 默认情况下,加载器使用预训练的 Salesforce BLIP 图像标题生成模型。 | 
| IMSDb | IMSDb 是 互联网电影剧本数据库。 | 
| Iugu | Iugu 是一家巴西的服务和软件即服务 (SaaS) 公司。它为电子商务网站和移动应用程序提供支付处理软件和应用程序编程接口。 | 
| Joplin | Joplin 是一个开源的笔记应用程序。捕捉你的想法,并可以从任何设备安全访问它们。 | 
| JSONLoader | 本笔记本提供了关于如何使用 JSON 文档加载器 的快速概述。有关所有 JSONLoader 功能和配置的详细文档,请访问 API 参考。 | 
| Jupyter Notebook | Jupyter Notebook(前称 IPython Notebook)是一个基于网页的交互式计算环境,用于创建笔记本文档。 | 
| Kinetica | 本笔记本介绍了如何从Kinetica加载文档 | 
| lakeFS | lakeFS 提供对数据湖的可扩展版本控制,并使用类似 Git 的语义来创建和访问这些版本。 | 
| LangSmith | 本笔记本提供了一个快速概述,帮助您开始使用 LangSmith 文档加载器。有关所有 LangSmithLoader 功能和配置的详细文档... | 
| LarkSuite (飞书) | LarkSuite 是字节跳动开发的企业协作平台。 | 
| LLM Sherpa | 本笔记本介绍如何使用 LLM Sherpa 加载多种类型的文件。LLM Sherpa 支持多种文件格式,包括 DOCX、PPTX、HTML... | 
| Mastodon | Mastodon 是一个联邦社交媒体和社交网络服务。 | 
| MathPixPDFLoader | 灵感来自于 Daniel Gross 的代码片段: https://gist.github.com/danielgross/3ab4104... | 
| MediaWiki 转储 | MediaWiki XML 转储 包含了一个维基的内容(维基页面及其所有修订),不包括与站点相关的数据。XML 转储并不创建维基数据库的完... | 
| 合并文档加载器 | 合并从一组指定文档加载器返回的文档。 | 
| mhtml | MHTML是一种用于电子邮件和归档网页的格式。MHTML,有时称为MHT,代表MIME HTML,是一个将整个网页归档为单个文件的格式。当... | 
| Microsoft Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。该加载器支持 .xlsx 和 .xls 文... | 
| Microsoft OneDrive | Microsoft OneDrive(前称 SkyDrive)是由微软运营的文件托管服务。 | 
| Microsoft OneNote | 本笔记本涵盖如何从 OneNote 加载文档。 | 
| Microsoft PowerPoint | Microsoft PowerPoint 是微软的一款演示程序。 | 
| Microsoft SharePoint | Microsoft SharePoint 是一个基于网站的协作系统,使用工作流应用程序、“列表”数据库以及其他网页组件和安全功能,旨在帮助... | 
| Microsoft Word | Microsoft Word 是由微软开发的文字处理软件。 | 
| Near Blockchain | 概述 | 
| 现代财政 | 现代财政 简化复杂的支付操作。它是一个统一的平台,用于支持移动资金的产品和流程。 | 
| MongoDB | MongoDB 是一个 NoSQL 文档导向数据库,支持具有动态模式的类似 JSON 的文档。 | 
| 新闻网址 | 这部分介绍了如何将来自网址列表的HTML新闻文章加载为我们可以在后续使用的文档格式 。 | 
| Notion 数据库 2/2 | Notion 是一个具有修改过的 Markdown 支持的协作平台,集成了看板、任务、维基和数据库。它是一个用于笔记、知识和数据管理以及项... | 
| Nuclia | Nuclia 自动从任何内部和外部来源自动索引您的非结构化数据,提供优化的搜索结果和生成的答案。它可以处理视频和音频转录、图像内容提取和文... | 
| Obsidian | Obsidian 是一个强大且可扩展的知识库 | 
| 开放文档格式 (ODT) | 办公应用程序开放文档格式 (ODF),也称为 OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使... | 
| 开放城市数据 | Socrata 提供城市开放数据的API。 | 
| Oracle 自主数据库 | Oracle 自主数据库是一个云数据库,使用机器学习来自动化数据库调优、安全性、备份、更新和其他传统上由数据库管理员执行的日常管理任务。 | 
| Oracle AI 向量搜索:文档处理 | Oracle AI 向量搜索旨在处理人工智能 (AI) 工作负载,允许您基于语义而非关键字查询数据。 | 
| Org-mode | A Org Mode 文档 是一种文档编辑、格式化和组织模式,旨在用于在自由软件文本编辑器 Emacs 中进行笔记、规划和创作。 | 
| Pandas 数据框 | 本 笔记本介绍了如何从 pandas 数据框加载数据。 | 
| PDFMiner | 概述 | 
| PDFPlumber | 与 PyMuPDF 类似,输出的文档包含关于 PDF 及其页面的详细元数据,并且每页返回一个文档。 | 
| Pebblo 安全文档加载器 | Pebblo 使开发者能够安全地加载数据,并在不担心组织的合规性和安全要求的情况下,将他们的生成 AI 应用程序推广到部署。该项目识别加载... | 
| Polars 数据框 | 本笔记本介绍了如何从 polars 数据框加载数据。 | 
| Psychic | 本笔记本介绍如何从 Psychic 加载文档。有关更多详细信息,请参见 这里。 | 
| PubMed | PubMed® 由 国家生物技术信息中心,国家医学图书馆 提供,包含超过 3500 万条生物医学文献的引用,来源于 MEDLINE、生命科... | 
| PyMuPDF | PyMuPDF 针对速度进行了优化,并包含有关 PDF 及其页面的详细元数据。它每页返回一个文档。 | 
| PyPDFDirectoryLoader | 该加载器从特定目录加载所有PDF文件。 | 
| PyPDFium2加载器 | 本笔记本提供了一个快速概述,帮助您开始使用PyPDFium2 文档加载器。有关所有ModuleNameLoader功能和配置的详细文档,请... | 
| PyPDFLoader | 本笔记本提供 了一个快速概述,帮助您开始使用 PyPDF 文档加载器。有关所有 DocumentLoader 功能和配置的详细文档,请访问 ... | 
| PySpark | 本笔记介绍如何从一个 PySpark 数据框加载数据。 | 
| Quip | Quip 是一款用于移动和Web的协作生产力软件套件。它允许一组人共同创建和编辑文档和电子表格,通常用于商业目的。 | 
| ReadTheDocs 文档 | Read the Docs 是一个开源的免费软件文档托管平台。它使用 Sphinx 文档生成器生成文档。 | 
| 递归 URL | RecursiveUrlLoader 允许您递归抓取根 URL 的所有子链接并将其解析为文档。 | 
| Reddit 是一个美国社交新闻聚合、内容评分和讨论网站。 | |
| Roam | ROAM 是一个用于网络思维的笔记工具,旨在创建个人知识库。 | 
| Rockset | Rockset 是一个实时分析数据库,可以在没有操作负担的情况下对大量半结构化数据进行查询。使用 Rockset,摄取的数据在一秒内可查询... | 
| rspace | 本笔记本展示了如何使用RSpace文档加载器从RSpace电子实验室笔记导入研究笔记和文档到LangChain管道。 | 
| RSS 源 | 这部分介绍如何将来自一系列 RSS 源 URL 的 HTML 新闻文章加载到我们可以在后续使用的文档格式中。 | 
| RST | A reStructured Text (RST) 文件是一种文本数据文件格式,主要用于Python编程语言社区的技术文档。 | 
| scrapfly | ScrapFly | 
| ScrapingAnt | 概述 | 
| 网站地图 | 从 WebBaseLoader 扩展而来,SitemapLoader 从给定的 URL 加载网站地图,然后抓取并加载网站地图中的所有页面,... | 
| Slack | Slack 是一个即时消息程序。 | 
| 雪花 | 本笔记本介绍如何从雪花加载文档 | 
| 源代码 | 本笔记本介绍了如何使用一种特殊的方法加载源代码文件,采用语言解析:代码中的每个顶层函数和类被加载到单独的文档中。任何剩余的顶层代码(不在已... | 
| 蜘蛛 | 蜘蛛 是最快和最实惠的爬虫和抓取工具,能够返回适合大型语言模型的数据。 | 
| Spreedly | Spreedly 是一个允许您安全存储信用卡并使用它们与任意数量的支付网关和第三方API进行交易的服务。它通过同时提供卡片令牌化/保险库服... | 
| Stripe | Stripe 是一家爱尔兰-美国金融服务和软件即服务 (SaaS) 公司。它为电子商务网站和移动应用提供支付处理软件和应用程序编程接口。 | 
| 副标题 | SubRip 文件格式 在 Matroska 多媒体容器格式网站上被描述为“可能是所有字幕格式中最基本的。” SubRip (SubRip... | 
| SurrealDB | SurrealDB 是一个端到端的云原生数据库,专为现代应用程序设计,包括网页、移动、无服务器、Jamstack、后端和传统应用程序。使用... | 
| Telegram | Telegram Messenger 是一个全球可访问的免费增值、跨平台、加密、基于云的集中式即时消息服务。该应用程序还提供可选的端到端加... | 
| 腾讯云 COS 目录 | 腾讯云对象存储 (COS) 是一个分布式 | 
| 腾讯云 COS 文件 | 腾讯云对象存储 (COS) 是一个分布式 | 
| TensorFlow 数据集 | TensorFlow 数据集 是一个可供使用的数据集集合,适用于 TensorFlow 或其他 Python 机器学习框架,如 Jax。所... | 
| TiDB | TiDB Cloud,是一个综合的数据库即服务 (DBaaS) 解决方案,提供专用和无服务器选项。TiDB Serverless 现在将内... | 
| 2Markdown | 2markdown 服务将网站内容转换为结构化的markdown文件。 | 
| TOML | TOML 是一种配置文件的文件格式。它旨在易于阅读和编写,并设计为可以明确映射到字典。其规范是开源的。TOML 在许多编程语言中都有实现。... | 
| Trello | Trello 是一个基于网络的项目管理和协作工具 ,允许个人和团队组织和跟踪他们的任务和项目。它提供了一个称为“看板”的可视化界面,用户可以... | 
| TSV | A 制表符分隔值 (TSV) 文件是一种简单的基于文本的文件格式,用于存储表格数据。[3] 记录由换行符分隔,记录内的值由制表符分隔。 | 
| 推特 | 推特 是一个在线社交媒体和社交网络服务。 | 
| 非结构化 | 本笔记本介绍如何使用 Unstructured 文档加载器 加载多种类型的文件。Unstructured 目前支持加载文本文件、幻灯片、h... | 
| 非结构化Markdown加载器 | 本笔记本提供了一个快速概述,帮助您开始使用非结构化Markdown 文档加载器。有关所有 ModuleNameLoader 功能和配置的详... | 
| 非结构化PDF加载器 | 概述 | 
| Upstage | 本笔记本介绍如何开始使用 UpstageLayoutAnalysisLoader。 | 
| URL | 本示例介绍如何从一系列 URLs 加载 HTML 文档到我们可以在后续使用的 Document 格式中。 | 
| Vsdx | 一个 Visio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关,这是一个图表创建软件。它存储有关图表的结构、布局和... | 
| 天气 | OpenWeatherMap 是一个开源天气服务提供商 | 
| WebBaseLoader | 这部分介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本到我们可以在后续使用的文档格式中。有关加载网页的更多自定义... | 
| WhatsApp 聊天 | WhatsApp(也称为 WhatsApp Messenger)是一个免费、跨平台的集中式即时消息(IM)和语音通信(VoIP)服务。它允... | 
| 维基百科 | 维基百科 是一个由志愿者社区(称为维基人)编写和维护的多语言免费在线百科全书,通过开放协作和使用名为MediaWiki的基于维基的编辑系统... | 
| 非结构化XML加载器 | 本笔记本提供了关于如何使用非结构化XML加载器 文档加载器 的快速概述。UnstructuredXMLLoader 用于加载 XML 文件... | 
| Xorbits Pandas 数据框 | 本笔记本介绍了如何从 xorbits.pandas 数据框加载数据。 | 
| YouTube 音频 | 在 YouTube 视频上构建聊天或问答应用程序是一个备受关注的话题。 | 
| YouTube 转录 | YouTube 是一个由谷歌创建的在线视频分享和社交媒体平台。 | 
| 语雀 | 语雀 是一个专业的基于云的知识库,用于团队协作和文档管理。 | 

