Diffbot
Diffbot 是一套基于机器学习的产品,旨在简化网页数据的结构化和集成。
安装和设置
获取免费的 Diffbot API 令牌 并 按照这些说明 进行请求认证。
文档加载器
Diffbot 的 提取 API 是一个从网页中结构化和规范化数据的服务。
与传统的网页抓取工具不同,Diffbot Extract
不需要任何规则来读取页面内容。它使用计算机视觉模型将页面分类为 20 种可能的类型之一,然后将原始 HTML 标记转换为 JSON。生成的结构化 JSON 遵循一致的 基于类型的本体,这使得从多个不同的网页源中提取具有相同模式的数据变得简单。
查看 使用示例。
from langchain_community.document_loaders import DiffbotLoader
图表
Diffbot的自然语言处理API允许从非结构化文本数据中提取实体、关系和语义信息。
查看使用示例。
from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer