YouTube 转录
YouTube 是一个由谷歌创建的在线视频分享和社交媒体平台。
本笔记本介绍如何从 YouTube 转录
加载文档。
<!--IMPORTS:[{"imported": "YoutubeLoader", "source": "langchain_community.document_loaders", "docs": "https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.youtube.YoutubeLoader.html", "title": "YouTube transcripts"}]-->
from langchain_community.document_loaders import YoutubeLoader
%pip install --upgrade --quiet youtube-transcript-api
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=False
)
loader.load()
添加视频信息
%pip install --upgrade --quiet pytube
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=True
)
loader.load()
添加语言偏好
语言参数:这是一个按优先级降序排列的语言代码列表,默认是 en
。
翻译参 数:这是一个翻译偏好,您可以将可用的转录翻译为您偏好的语言。
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg",
add_video_info=True,
language=["en", "id"],
translation="en",
)
loader.load()
以时间戳块获取转录
获取一个或多个 Document
对象,每个对象包含视频转录的一部分。可以指定块的长度(以秒为单位)。每 个块的元数据包括视频在 YouTube 上的 URL,该 URL 将在特定块的开头开始播放视频。
transcript_format
参数:langchain_community.document_loaders.youtube.TranscriptFormat
的值之一。在这种情况下,TranscriptFormat.CHUNKS
。
chunk_size_seconds
参数:表示每个转录数据块的视频秒数的整数。默认是 120 秒。
<!--IMPORTS:[{"imported": "TranscriptFormat", "source": "langchain_community.document_loaders.youtube", "docs": "https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.youtube.TranscriptFormat.html", "title": "YouTube transcripts"}]-->
from langchain_community.document_loaders.youtube import TranscriptFormat
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=TKCMw0utiak",
add_video_info=True,
transcript_format=TranscriptFormat.CHUNKS,
chunk_size_seconds=30,
)
print("\n\n".join(map(repr, loader.load())))