gpt4 book ai didi

python - 如何使用 BeautifulSoup 删除表格单元格中的多余内容

转载 作者:太空宇宙 更新时间:2023-11-03 16:47:56 26 4
gpt4 key购买 nike

我正在抓取第二列中有额外信息的双列表。

state    | count  | pct
Florida | 1 (1) | 0.5
Colorado | 10 (<1)| 1.0

当我运行脚本时,我通常会得到以下变化:

1 \xa0\xa0\xa0\xa0\xa0(<1)

10 \xa0\xa0\xa0\xa0\xa0(10)

第二个单元格。

我只对第一个数字感兴趣,因此 BeautifulSoup 中的输出如下所示:

 [[u'Florida', u'1'], [u'Colorado', u'10']]

这样的事情可能吗?

最佳答案

假设您有:

>>> rows = [
... [u'Florida', u'1 \xa0\xa0\xa0\xa0\xa0(1)'],
... [u'Colorado', u'10 \xa0\xa0\xa0\xa0\xa0(<1)']
... ]

分割count并获取第一部分:

>>> rows = [[state, count.split()[0]] for state, count in rows]
>>> rows
[[u'Florida', u'1'], [u'Colorado', u'10']]

关于python - 如何使用 BeautifulSoup 删除表格单元格中的多余内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36144477/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com