python - 如何在使用 python 抓取 wikitable 时处理 rowspan？-6ren

python - 如何在使用 python 抓取 wikitable 时处理 rowspan？

转载作者：行者123 更新时间：2023-12-05 06:43:00

27

4

我正在尝试抓取存储在维基百科页面 https://en.wikipedia.org/wiki/Minister_of_Agriculture_(India) 表格中的数据.但是，我无法抓取存储在 rowspan Hers 中的完整数据，这是我到目前为止所写的:

from bs4 import BeautifulSoup
from urllib.request import urlopen

wiki = urlopen("https://en.wikipedia.org/wiki/Minister_of_Agriculture_(India)")

soup = BeautifulSoup(wiki, "html.parser")

table = soup.find("table", { "class" : "wikitable" })
for row in table.findAll("tr"):
    cells = row.findAll("td")

    if cells:
        name = cells[0].find(text=True)
        pic = cells[1].find("img")
        strt = cells[2].find(text=True)
        end = cells[3].find(text=True)
        pri = cells[6].find(text=True)

        z=name+'\n'+pic+'\n'+strt+'\n'+end+'\n'+pri
        print z

最佳答案

这是本题的唯一解。这里我将rowspan, colspan table改成simple table。我在这个问题上浪费了很多天，但没有找到简单而好的解决方案。在许多 stackoverflow 解决方案中，开发人员只抓取文本。但就我而言，我还需要 url 链接。所以，我写了这段代码。这对我有用

# this code written in beautifulsoup python3.5
# fetch one wikitable in html format with links from wikipedia
from bs4 import BeautifulSoup
import requests
import codecs
import os

url = "https://en.wikipedia.org/wiki/Ministry_of_Agriculture_%26_Farmers_Welfare"

fullTable = '<table class="wikitable">'

rPage = requests.get(url)
soup = BeautifulSoup(rPage.content, "lxml")

table = soup.find("table", {"class": "wikitable"})

rows = table.findAll("tr")
row_lengths = [len(r.findAll(['th', 'td'])) for r in rows]
ncols = max(row_lengths)
nrows = len(rows)

# rows and cols convert list of list
for i in range(len(rows)):
    rows[i]=rows[i].findAll(['th', 'td'])


# Header - colspan check in Header
for i in range(len(rows[0])):
    col = rows[0][i]
    if (col.get('colspan')):
        cSpanLen = int(col.get('colspan'))
        del col['colspan']
        for k in range(1, cSpanLen):
            rows[0].insert(i,col)


# rowspan check in full table
for i in range(len(rows)):
    row = rows[i]
    for j in range(len(row)):
        col = row[j]
        del col['style']
        if (col.get('rowspan')):
            rSpanLen = int(col.get('rowspan'))
            del col['rowspan']
            for k in range(1, rSpanLen):
                rows[i+k].insert(j,col)


# create table again
for i in range(len(rows)):
    row = rows[i]
    fullTable += '<tr>'
    for j in range(len(row)):
        col = row[j]
        rowStr=str(col)
        fullTable += rowStr
    fullTable += '</tr>'

fullTable += '</table>'

# table links changed
fullTable = fullTable.replace('/wiki/', 'https://en.wikipedia.org/wiki/')
fullTable = fullTable.replace('\n', '')
fullTable = fullTable.replace('<br/>', '')

# save file as a name of url
page=os.path.split(url)[1]
fname='outuput_{}.html'.format(page)
singleTable = codecs.open(fname, 'w', 'utf-8')
singleTable.write(fullTable)



# here we can start scraping in this table there rowspan and colspan table changed to simple table
soupTable = BeautifulSoup(fullTable, "lxml")
urlLinks = soupTable.findAll('a');
print(urlLinks)

# and so on .............

关于python - 如何在使用 python 抓取 wikitable 时处理 rowspan？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35098857/

27

4

0

文章推荐： scala - 如何用akka-http将字节流解析为 `HttpRequest`对象？

文章推荐： r - Dplyr、过滤器和 SE

html - 从给定单元格开始 rowspan 和 colspan 并减少 rowspan 的填充
我正在编写一个动态创建 HTML 表格的 PHP 脚本。有两件东西丢失了，找不到相关信息。我想减少 rowspan 单元格的“填充”，它在水平方向上太大了。您可以使用什么来修改内部字符串和单元格末
javascript - rowspan 找到然后检查第一个单元格是否有文本？
我有 HTML 表格。我正在遍历表并遍历其第三个单元格具有 rowspan 属性的每一行。我如何检查是否找到 rowspan 然后检查它的第一个单元格是否有文本。如果是，则分配给 javascript
html - 边框超过两个 rowspans
我将通过一个示例向您展示我的问题，这里我使用带有 rowspan 的列: Familie Jill Smith 50 Eve Jackson 94 不知何故，当
jquery 单元格选择开始为更多单元格制作 rowspan
see fiddle 首先，我是 jquery 的新手。我只需要选择一个单元格#tableAppointment tbody tr td:nth-child(2)文本框值应转到选择开始的下一个单元格
html - Rowspan 不使用顶行
我不明白为什么我的列不会跨越我创建的顶部和底部行。它应该看起来像“今天”栏的顶部和底部比其他栏高。这是很多代码，我不确定在不变形或添加新变量(它需要流体高度)的情况下我应该削减什么。JSFiddle
html - Rowspan 单元格大小不一样
我有一个简单的 table 和 rowspan 。我需要那个单元格 1、单元格 2 和单元格 6 的大小相同。请问我怎样才能做到这一点 number1 number3
Html Rowspan 置顶
我只是想问一下我是否可以把在顶部，因为我在上使用了一个 rowspan .请参阅下面的示例。这是我的代码: Month Savings Savings for h
html - Rowspan 属性不适用于倒排表
请注意，“倒置”表示现在代表一列。我使用这个 CSS 代码(我在互联网上找到的)反转了一个 HTML 表格: table { border-collapse: collapse; } tr {
html - Rowspan 未扩展
我用 html 制作了一个表格，但是当我尝试增加表格单元格的高度时，它并没有增加。这是 index.html 文件: Title Card
HTML5 在同一行的两列上使用 Rowspan
我正在尝试创建一个表格，其中第 1 行中的单元格 1 和单元格 2 都跨越 2 行以获得更大的标题，同时仍位于它们自己的单独单元格中。看起来像这段代码的东西 Quarter
html - rowspan 属性不跨越行
我试图让最后一行跨越前一行的 3 行。但是由于某种原因，这不起作用，我已经用几种不同的方式多次重写了代码，但似乎无法让它起作用: CSS: .div_walkthroughs_wrapper {
javascript - rowspan td后如何输入边距
我一直在尝试实现一些非常简单的事情，如下所示，在我的代码中，您可以看到，在 td 中，我设置了 rowspan="2" 并放置了一个输入“id=图像”。我正在尝试将图像放在 input 字段下方。
html rowspan 没有按预期运行
我应该有一些非常简单的 html，但由于某种原因，我无法使 rowspan 工作。它不会填充整个左侧列，而是只占据其底部的一个单元格。我想要这样的东西: +----------+-----------
html - 难以使用 rowspan
如何在这种结构中制作一个 html 表格？ +--------------+-----+--------------+ | | | | |
html - 是否可以交替 rowspans？
我想我正在尝试做的这个模式比问题本身更具描述性。 +------------------------+-----------------------+ |
html 表格标题 rowspan 到中心标题
我有一个类似 this 的表格: Items Type Values Date
jQuery 在带有 rowspan 的表中选择可视列
我见过一些类似的问题，但没有任何答案可以回答这个特定问题。考虑下表: one two three four
javascript - Rowspan 与 jQuery？
aaaaaaaaaaaa aaaaaaaaaaaa aaaaaaaaaaaa aaaaaaaaaaaa table td { padding: 3px
java - iText:带有图像的单元格不适用 Rowspan
我有一张 table (2 x 2)。如果我在行跨度为 2 的第一个单元格中添加一个短语作为单元格，它就可以工作。但如果我使用图像作为单元格，行跨度永远不会适用。 float[] rowwid
php - 使用多维数组构建具有 rowspan 的表
我希望一周的学生和事件以日历格式显示。我有如下数组。每个学生有 7 个数组，从星期一到星期天，每个数组的内部都有当天的事件 $array = [ 'Alex' => [ [

首页

博学

6Ren·AI

商城

python - 如何在使用 python 抓取 wikitable 时处理 rowspan？