gpt4 book ai didi

python - 在 python 中抓取所有维基百科页面以查找短语

转载 作者:太空宇宙 更新时间:2023-11-03 13:04:02 25 4
gpt4 key购买 nike

我需要设计一个程序,在整个维基百科文章集中找到特定的四个或五个单词短语(是的,我知道它有很多页面,我不需要因为这样做而被称为白痴的答案)。

我以前没有编程过很多这样的东西,所以有两个问题我非常感谢您的帮助:

  • 首先,我如何让程序爬过所有页面(即不对数百万页面中的每一个进行硬编码。我已将所有文章下载到我的硬盘上,但我'我不确定如何告诉程序遍历文件夹中的每一个)编辑 - 我的硬盘上有所有维基百科文章

  • 页面快照中有图片和表格。我如何只提取文章的主要文本?

非常感谢您对其中任何一个问题的帮助!

最佳答案

您应该下载 official datadump,而不是手动抓取页面,这速度较慢且可能被阻止。 .这些不包含图像,因此第二个问题也已解决。

编辑:我看到你的电脑上有所有文章,所以这个答案可能帮不上什么忙。

关于python - 在 python 中抓取所有维基百科页面以查找短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10039107/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com