gpt4 book ai didi

python - 使用 Python 的维基百科爬虫

转载 作者:太空宇宙 更新时间:2023-11-03 12:41:09 24 4
gpt4 key购买 nike

您好,我正在尝试构建一个简单的维基百科抓取工具,它可以让我分析文本并构建一个使用 Python 的人生活中事件的时间表。我在网上搜索可能的方法来做到这一点,直到现在我已经能够使用 BeautifulSoup 和 urllib2 检索数据。到目前为止的代码看起来像这样:

from bs4 import  BeautifulSoup
import urllib2
import re
import nltk
import json


#get source code of page (function used later)
def fetchsource(url):
source = urllib2.urlopen(url).read()
return source

if __name__=='__main__':
#url = "http://en.wikipedia.org/w/index.php?action=raw&title=Tom_Cruise" #works
url="http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&&titles=Tom_Cruise" #works
print url
source = fetchsource(url)
soup = BeautifulSoup(source)
print soup.prettify()

现在虽然我可以使用它,但是我得到的输出解析起来有点棘手,我只是想问问是否有更好的方法或者更易于管理的语法来检索数据.欢迎评论。

最佳答案

您还可以使用 pywikipediabot获取文章维基文本。例如,要获取汤姆克鲁斯的维基文本,就像在您的示例中一样,您可以使用:

import wikipedia

page = wikipedia.Page(wikipedia.getSite(), 'Tom_Cruise')

pageText = page.get()

print pageText

通过这种方式,您可以尝试从模板中获取数据,如果需要,还有一些用于 wikitext 的解析器。

关于python - 使用 Python 的维基百科爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12886973/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com