python - 如何从 python beautiful soup 的表中获取 tbody？-6ren

python - 如何从 python beautiful soup 的表中获取 tbody？

转载作者：太空狗更新时间：2023-10-30 02:11:45

27

4

我正在尝试从“决赛比赛列表”表(第二张表)中删除 Year & Winners(第一列和第二列) http://en.wikipedia.org/wiki/List_of_FIFA_World_Cup_finals :我正在使用下面的代码:

import urllib2
from BeautifulSoup import BeautifulSoup

url = "http://www.samhsa.gov/data/NSDUH/2k10State/NSDUHsae2010/NSDUHsaeAppC2010.htm"
soup = BeautifulSoup(urllib2.urlopen(url).read())
soup.findAll('table')[0].tbody.findAll('tr')
for row in soup.findAll('table')[0].tbody.findAll('tr'):
    first_column = row.findAll('th')[0].contents
    third_column = row.findAll('td')[2].contents
    print first_column, third_column

使用上面的代码，我能够很好地获得第一列和第三列。但是当我对 http://en.wikipedia.org/wiki/List_of_FIFA_World_Cup_finals 使用相同的代码时，它找不到 tbody 作为它的元素，但是当我检查元素时我可以看到 tbody。

url = "http://en.wikipedia.org/wiki/List_of_FIFA_World_Cup_finals"
soup = BeautifulSoup(urllib2.urlopen(url).read())

print soup.findAll('table')[2]

    soup.findAll('table')[2].tbody.findAll('tr')
    for row in soup.findAll('table')[0].tbody.findAll('tr'):
        first_column = row.findAll('th')[0].contents
        third_column = row.findAll('td')[2].contents
        print first_column, third_column

这是我从评论错误中得到的:

'
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-150-fedd08c6da16> in <module>()
      7 # print soup.findAll('table')[2]
      8 
----> 9 soup.findAll('table')[2].tbody.findAll('tr')
     10 for row in soup.findAll('table')[0].tbody.findAll('tr'):
     11     first_column = row.findAll('th')[0].contents

AttributeError: 'NoneType' object has no attribute 'findAll'

'

最佳答案

如果您通过浏览器中的检查工具进行检查，它将插入 tbody 标签。

源代码可能包含也可能不包含它们。如果您真的想知道，我建议您查看源代码 View 。

无论哪种方式，您都不需要遍历到 tbody，只需:

soup.findAll('table')[0].findAll('tr') 应该可以。

关于python - 如何从 python beautiful soup 的表中获取 tbody？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20522820/

27

4

0

文章推荐： python - Pandas 选择不连续的数据框日期切片？

文章推荐： Python - 匹配

文章推荐： python - PySide-Qt : Could not initialize OLE (error 80010106)

文章推荐： python - list.reverse() 在 Django 中不能正常工作

python - 抓取表仅返回 "tbody"而不是 tbody 的内容
我正在尝试从该网站上名为“燃料混合图”的表中提取数据:https://www.iso-ne.com/isoexpress/我正在使用 BeautifulSoup 读取 HTML 并提取下面列出的表格，
html - 在 tbody 上没有固定高度的动态 tbody 滚动
我一直在为这个问题伤脑筋。我有一个 div 布局，其中某些 div 可以折叠或显示。在这些 div 下方是一个带有表格的 div。我想要的是当内容不再适合页面时，tbody 变得可滚动。我不能给 t
css - 在具有多个 tbody 的表中如何在 tbody 元素之间创建一些空间
我试图在包含多个 tbody 元素的表的 tbody 部分之间创建一些空间，即间隙，但没有取得任何成功。怎么做到的？ .
html - 一个 tbody 可以在另一个 tbody 里面吗？
是否可以像这样在外部 tbody 中有一个内部 tbody: 这是一个示例 CSS: .class1 {background-color:#ff0000;} .class2 {b
JavaScript - 添加行在 tbody 标签后添加行，需要在 tbody 内添加
我在 JavaScript 中添加行时遇到问题。一切正常，但在 tbody 标签之后添加了行。我需要在 tbody 中添加。片段: function deleteRow(row) { var i
javascript - 如何在表的多个 tbody 中使用 jquery 删除选定的 tbody
我有一个表，并使用 jquery 在我的表中添加了更多 tbody。现在我想在单击删除按钮时删除选定的 tbody，我的代码删除一行而不是删除所有选定的 tbody。怎么办？我的代码是:
html - 当 tbody 设置为其容器的宽度时，我可以在 tbody 的溢出上实现水平滚动吗？
我正在努力实现以下目标: 包含 div 内的 table 元素 table 没有设置width(可以是 100%)，但它不能比包含的 div 宽 table 的单元格是固定宽度的(使用 width 和
html - 垂直滚动在 tbody 中无法正常工作，打破了之前的 tbody 宽度
我有一个表格，我需要在 tbody 中添加一个垂直滚动条。我看过一些代码但不适合我或者我不理解。我也不太擅长CSS。我添加了一个 div 并将我的 tbody 放在那里。它适用于滚动，但 tbody
html - 使用 tbody 的新 css 在表中创建可滚动的 tbody
我有一个带有滚动 tbody 的工作表，通过使用带有以下内容的 css。 tbody{ overflow:auto; } thread > tr, tbody{ display:block;
html - 为什么 tbody 之间的 div 在渲染时自动移出 tbody？
这是我的代码: test 运行上面的代码后，自动变成了这样: test
css - tbody td 边框不随 tbody 中的内容滚动溢出 :auto;
当我滚动浏览这个 overflow:auto; 时，我无法让这些 td 的边框跟随它们的行； .关于修复的任何想法？注意:设置 table-layout:fixed 或使行 display:blo
javascript - 如何使 tbody 子级大小与 thead 之后创建的第一个 tbody 大小相同
嗨，我有一个问题。我想问一下如何让tbody子元素的大小与thead后第一行的大小相同？这是我的代码..请帮助我..您可以编辑我的 fiddle 或给出答案 var theadFlag =
jquery - 选择的 tbody 不使用 jquery 从多个 tbody 中删除
我知道这是一个非常简单的查询，但我花了一整天时间让它工作，但运气不好。我正在尝试删除任何带有其 ID 的 tbody，但它不是通过我在网上找到的任何方法删除的。我在这里犯了什么错误？ $(do
javascript - 在滚动 tbody 和 thead 列时修复表头与 tbody 列对齐
这是固定外部高度的表格，我需要滚动开始时，thead 将被固定，tbody 将滚动显示每列的标题。是否有任何想法将表格的标题固定在顶部和表格的内部内容将滚动。 .max_height{max-heig
jquery 说 tbody.length = 1 即使没有标签存在
这个问题在这里已经有了答案: Why do browsers insert tbody element into table elements? (2 个答案) 关闭 9 年前。我有一个非常简单的
haskell - xml-conduit:如何仅获取第一个 tbody 和该 tbody 的直接子 tr？
我正在使用 xml-conduit 和 Text.XML.Cursor 来导航一些带有嵌套表的糟糕 html。有一个带有两个 tbody 标签的表，我想要第一个 tbody 的直接子 tr 标签。这是
javascript - DataTable.js - 对于通过 Ajax 调用传入的某些数据集，内不会显示任何数据
对于某些数据集，数据表中不显示任何数据 - 仅显示列标题或列标签。即使页面上的代码没有更改，也会发生这种情况。有问题的数据在浏览器开发工具 Console.logs 中正确显示。如下所示，DataS
javascript - 如何使用 Javascript/Jquery 将 Child 追加为 tbody 中的第一行并拥有自己的 tbody
我需要将 json 中的数据作为表中的行追加。我需要将 id="project"的行添加为自己的 tbody 中的第一行。如果检测到新项目，将创建新的 tbody，并且项目和任务将拥有自己的 tbod
javascript - 在页面加载时隐藏 tbody，永久显示 thead 组，使用 jQuery 在下拉选择中显示 tbody
我试图首先在页面加载时仅显示 thead 和几行数据(永久显示分组在 thead 下的数据)。加载页面后，我希望选定的对象选择(不显示任何 tbody 组)并通过选择顶部下拉菜单中的选项(以显示选定的
css - 将 thead 和 tbody 元素与固定 thead 和使 tbody 可滚动的能力对齐
我已将以下 CSS 应用于我的表格。 thead, tbody { display: block; } tbody { height: 200px; overflo

首页

博学

6Ren·AI

商城

python - 如何从 python beautiful soup 的表中获取 tbody？