python - Pandas read_html 不会从维基百科页面收集所有表格-6ren

python - Pandas read_html 不会从维基百科页面收集所有表格

转载作者：太空宇宙更新时间：2023-11-04 04:20:32

26

4

我的目标是编写一个解析器，从给定的维基百科 URL 收集所有表格数据。我一直在尝试使用 pandas.read_html 方法从示例维基百科页面收集所有表格。不幸的是，它似乎并没有从页面中收集所有表格。这是我的代码:

inputurl = "https://en.wikipedia.org/wiki/France" dflist = pd.read_html(inputurl, attrs={"class": "wikitable"}) print("已解析表数:", len(dflist)) 对于 dflist 中的解析表: print("收集到的表:") 打印(解析表)

问题是只返回 2 个表，而这个页面中有 4 个以上的表。我如何改进代码以将它们全部收集起来？谢谢。

最佳答案

看来您需要删除 attrs:

inputurl = "https://en.wikipedia.org/wiki/France"
dflist = pd.read_html(inputurl)
print("Number of parsed tables: ", len(dflist))
Number of parsed tables:  40

检查页面的 html 代码后，有 3 个表带有 class='wikitable'，第三个需要指定两个类:

inputurl = "https://en.wikipedia.org/wiki/France"
dflist = pd.read_html(inputurl, attrs={"class": ["wikitable","wikitable sortable"]})
print("Number of parsed tables: ", len(dflist))
Number of parsed tables:  3

关于python - Pandas read_html 不会从维基百科页面收集所有表格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54571714/

26

4

0

文章推荐： linux - 有关 Debian 上附加显示的信息

文章推荐： linux - 可执行文件中缺少动态库，但仅当作为 sudo 运行时

文章推荐： android NDK ndk-构建错误

Sharepoint 维基
好吧，我看过一些帖子提到其他一些关于不使用 SP wiki 的帖子，因为它们很糟糕。既然我们正在考虑在 SP 中创建 wiki，我需要知道为什么我们不应该让 6 名自动化开发人员来记录各种自动化流程
git - 差异 GitLab 维基
在 GitLab Wiki 部分，可以查看保存更改的历史记录。但是，当您单击提交链接时，它将显示该保存中存在的整个文件。有谁知道一种方法来区分提交以仅获取两个提交之间的差异？这类似于它在 merge
javascript - 维基 API 请求不起作用
我使用了 Wiki API 文档中的一些示例代码，但是当我输入搜索项时，没有任何反应。控制台中没有错误，什么也没有。如果我将 URL 输入到浏览器中，URL 本身就会起作用，所以我认为代码中的某些内容
wiki - BitBucket 维基 : Create a hierarchy structure?
我想在我的 wiki 中创建一个层次结构，如下所示: General FooPages Foo1 Foo2 Foo3 ODP Bar Baz 我想创建这些页
python - Python 维基 map API (PyMapia)
我正在尝试使用为 Python 制作的 Wikimapia 的 pymapia API，但无法理解如何正确使用它。 import pymapia as PyMapia a = PyMapia.PyMa
ios - OS X 维基/博客服务器 API
我正在开发适用于 iOS 的客户端应用程序，用于在 Mac OS X 服务器(Snow Leopard 和 Lion)上编辑内置的 Wiki/Blog。看来我们可以使用 MetaWeblog 、At
url-rewriting - 哪种 URL 重写方案更可取？维基/博客风格？
我正在编写一些 URL 重写软件，我想从多个角度了解哪种 URL 方案更可取: 博客风格:my-chemistry-answer -- 为什么？ -- (不可取，技术性) Wiki 风格:My_Che
azure-devops - Azure DevOps 维基 : How can I link the subpages in the parent page?
我一直试图找到一种方法来在 Azure DevOps Wiki 中创建子页面的目录。我从其他 wiki 服务中找到了方法。在 Confluence 中，他们有一个用于“ child 显示”的宏我为

首页

博学

6Ren·AI

商城

python - Pandas read_html 不会从维基百科页面收集所有表格