gpt4 book ai didi

python - Pandas read_html 不会从维基百科页面收集所有表格

转载 作者:太空宇宙 更新时间:2023-11-04 04:20:32 26 4
gpt4 key购买 nike

我的目标是编写一个解析器,从给定的维基百科 URL 收集所有表格数据。我一直在尝试使用 pandas.read_html 方法从示例维基百科页面收集所有表格。不幸的是,它似乎并没有从页面中收集所有表格。这是我的代码:

inputurl = "https://en.wikipedia.org/wiki/France"
dflist = pd.read_html(inputurl, attrs={"class": "wikitable"})
print("已解析表数:", len(dflist))
对于 dflist 中的解析表:
print("收集到的表:")
打印(解析表)

问题是只返回 2 个表,而这个页面中有 4 个以上的表。我如何改进代码以将它们全部收集起来?谢谢。

最佳答案

看来您需要删除 attrs:

inputurl = "https://en.wikipedia.org/wiki/France"
dflist = pd.read_html(inputurl)
print("Number of parsed tables: ", len(dflist))
Number of parsed tables: 40

检查页面的 html 代码后,有 3 个表带有 class='wikitable',第三个需要指定两个类:

inputurl = "https://en.wikipedia.org/wiki/France"
dflist = pd.read_html(inputurl, attrs={"class": ["wikitable","wikitable sortable"]})
print("Number of parsed tables: ", len(dflist))
Number of parsed tables: 3

关于python - Pandas read_html 不会从维基百科页面收集所有表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54571714/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com