gpt4 book ai didi

xml-parsing - 从维基百科 XML 转储中获取静态 HTML 文件

转载 作者:行者123 更新时间:2023-12-04 04:26:34 27 4
gpt4 key购买 nike

我希望能够从庞大的(即使是压缩的)英文维基百科 XML 转储文件中获取相对最新的静态 HTML 文件 enwiki-latest-pages-articles.xml.bz2我是从WikiMedia dump page下载的.似乎有很多可用的工具,尽管关于它们的文档很少,所以我不知道它们中的大多数是做什么的,或者它们是否与最新的转储保持同步。 (我非常擅长构建可以抓取相对较小的 HTML 页面/文件的网络爬虫,尽管我对 SQL 和 XML 很不擅长,而且我不希望至少再过一年能很好地使用它们。)我希望能够抓取从转储离线获取的 HTML 文件,而无需在线抓取 Wikipedia。

有谁知道从最近的维基百科 XML 转储中获取静态 HTML 文件的好工具?

最佳答案

一、import the data .然后使用 DumpHTML 创建 HTML 文件.虽然理论上很简单,但由于涉及的数据量和 DumpHTML 有点被忽视,这个过程在实践中可能会很复杂,所以不要犹豫 ask for help .

关于xml-parsing - 从维基百科 XML 转储中获取静态 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10713330/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com