gpt4 book ai didi

python - 你如何使用 BeautifulSoup 从 HTML 'datacell' 中获取文本

转载 作者:太空狗 更新时间:2023-10-29 14:56:56 25 4
gpt4 key购买 nike

我一直在尝试从 HTML 文件中删除一些数据。我有逻辑编码以获得正确的单元格。现在我正在努力获取“单元格”的实际内容:

这是我的 HTML 片段:

headerRows[0][10].contents

  [<font size="+0"><font face="serif" size="1"><b>Apples Produced</b><font size="3">       
</font></font></font>]

请注意,这是来自 Python [] 的列表项。

我需要 Apples Produced 的值(value),但无法获得它。

如有任何建议,我们将不胜感激

关于解释这一点的好书的建议将赢得我永远的感激


感谢您的回答。但是,是否没有更通用的答案。如果我的单元格没有粗体属性会怎样

说是:

 [<font size="+0"><font face="serif" size="1"><I>Apples Produced</I><font size="3">       
</font></font></font>]

生产的苹果

我正在努力学习阅读/理解文档,您的回复会有所帮助

非常感谢您的帮助。关于这些答案的最好的事情是,从它们中概括比我能够从 BeautifulSoup 文档中概括要容易得多。我在 Fortran 时代学习编程,现在我正在学习 python,我惊叹于它的强大——BeautifulSoup 就是一个例子。使整个文档连贯一致对我来说很难。

干杯

最佳答案

BeautifulSoup documentation应该涵盖您需要的一切 - 在这种情况下,您似乎想要使用 findNext :

headerRows[0][10].findNext('b').string

不依赖于 <b> 的更通用的解决方案标签将使用 text findAll 的参数,它只允许您搜索 NavigableString对象:

>>> s = BeautifulSoup(u'<p>Test 1 <span>More</span> Test 2</p>')
>>> u''.join([s.string for s in s.findAll(text=True)])
u'Test 1 More Test 2'

关于python - 你如何使用 BeautifulSoup 从 HTML 'datacell' 中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/223328/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com