python - 从(网页)表格中有选择地选取文本-6ren

python - 从(网页)表格中有选择地选取文本

转载作者：太空宇宙更新时间：2023-11-03 18:14:36

26

4

我的问题来自网页上的表格(抱歉，我无法提供网址，因为这是公司内部的网址。)

表格如下所示:

Status  Class_code  Major           Started from
Active  4562256     Global Finance      2013
Active  4588222     Global Finance      2014
Active  4552214     Trade Management    2014
Active  8631448     Law                 2012

其代码为:

<TR class=Data align=left>
<TD class=TextColumn>Active</TD>
<TD class=NumColumn>
<DIV title="No:03">4562256</DIV></TD>
<TD class=TextColumn>Global Finance</TD>
<TD class=NumColumn>
<DIV title=2013>2013</DIV></TD>
...
<TR class=Data align=left>
<TD class=TextColumn>Active</TD>
<TD class=NumColumn>
<DIV title="No:04">4588222</DIV></TD>
<TD class=TextColumn>Global Finance</TD>
<TD class=NumColumn>
<DIV title=2014></DIV>2014</TD>
...    
<TR class=Data align=left>
<TD class=TextColumn>Active</TD>
<TD class=NumColumn>
<DIV title="No:05">4552214</DIV></TD>
<TD class=TextColumn>International Trade</TD>
<TD class=NumColumn>
<DIV title=2014>2014</DIV></TD>
...    
<TR class=Data align=left>
<TD class=TextColumn>Active</TD>
<TD class=NumColumn>
<DIV title="No:06">8631448</DIV></TD>
<TD class=TextColumn>Law</TD>
<TD class=NumColumn>
<DIV title=2012>2012</DIV></TD>
...

我想让BeautifulSoup挑选的是2014年才创建的科目，“金融”和“国际贸易”。

我在下面使用，但它给出了列中的所有数字。

find_number = soup.find_all('td', class_='NumColumn')

for fn in find_number :
    results = fn.find_all('div')
    print results

我怎样才能只选择带有“2014”的那些(“类(class)代码”总是在第二列；“开始于”总是在第四列)

谢谢。

最佳答案

要获得更强大(如果更复杂)的解决方案，您可以尝试使用正则表达式。

https://docs.python.org/2/howto/regex.html

本质上，它们让您指定包含数据的模式。

例如，

import re
p = re.compile(r'div*/div')//This will get you any data in a div(That is spelled lowercase)
htmldocumentasstring = "However you would do that"
print p.match(htmldocumentasstring) //This will get you only the first result

所以，这不是最漂亮或最简单的解决方案，但它是一种方法。

关于python - 从(网页)表格中有选择地选取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25196444/

26

4

0

文章推荐： c# - 为什么 BackgroundWorker 可以修改 UI 组件？

文章推荐： bayesian - 如何在pymc中设置确定性变量的键

文章推荐： c# - 贫血领域模型和领域服务

文章推荐： python - Pyglet 未绘制预定函数

typescript - 用于删除未定义项的过滤器未被 TypeScript 选取
在下面的代码中，我想不必添加undefined作为filteredDevice的类型注解。我认为一个被过滤的设备不应该是未定义的，因为我过滤掉了未定义的设备。但是如果我删除 undefined类型注
iphone - 选取 UIButton 的文字
我有一个 UIButton，其文本来自服务器。按钮的宽度是固定的。我想要的是，如果按钮的文本超过按钮的宽度，文本应该在按钮内选取框。如果文本适合按钮宽度，则不应有选取框效果。我点击了一些链接(one
3d - webgl 和 glsl 选取
我正在从头开始实现 webgl 选取，并决定走 GLSL 路线，而不是光线相交测试。所以我将整个场景渲染到一个单独的帧缓冲区中，为每个对象分配一个唯一的颜色，该颜色作为统一变量传递给片段着色器。当场
javascript - 随机化数组，选取 2 个随机对象，然后填充一个新数组？
例如，我有包含多个对象的数组， var arr = ["a", "b", "c", "d"]; 我想要的是从该数组中选取 2 个随机对象，例如“a”和“c”，并将这 2 个对象推送到另一个数组中，例如

首页

博学

6Ren·AI

商城

python - 从(网页)表格中有选择地选取文本