MediaWikiDump
MediaWiki XML Dumps 包含一个维基的内容 (包含所有修订的维基页面),不包括与网站相关的数据。XML 转储并不创建完整的备份 维基数据库的转储不包含用户账户、图片、编辑日志等。
安装和设置
我们需要安装几个 Python 包。
mediawiki-utilities
在未合并的分支中支持 XML 架构 0.11。
pip install -qU git+https://github.com/mediawiki-utilities/python-mwtypes@updates_schema_0.11
mediawiki-utilities mwxml
存在一个错误,修复的 PR 待处理。
pip install -qU git+https://github.com/gdedrouas/python-mwxml@xml_format_0.11
pip install -qU mwparserfromhell
文档加载器
查看 使用示例。
from langchain_community.document_loaders import MWDumpLoader