gpt4 book ai didi

python - 从 html 文件中提取文本?

转载 作者:行者123 更新时间:2023-11-28 03:44:37 24 4
gpt4 key购买 nike

我有一个包含一堆文本的网页,我只想从页面中提取文本并将其写入文件。我正在尝试使用 BeautifulSoup,但不确定它是否能轻松完成我想要的操作。故事是这样的:我相信我要提取的文本位于:

<td colspan="2" class="msg_text_cell" style="text-align: justify; background-color: rgb(212, 225, 245); background-image: none; background-repeat: repeat-x;" rowspan="2" valign="top" width="100%">

<p></p><div style="overflow: hidden; width: 550px; height: 48px;">

我想要做的是只选择之间的文本行,但不包括上面的开始和结束文本。请注意,上面的开始 html 本身在一行上,但结束文本有时会出现在我想要的最后一个文本之后,但不在新行上。

我似乎看不出如何用 BeautifulSoup 做我想做的事,但可能是我的不熟悉妨碍了我。

另外,我要提取的文本在页面中出现了 50 次,所以我希望所有这些文本都用类似 '++++++++++++++++++++ +' 使其更易于阅读。

非常感谢您的帮助。

最佳答案

如果您对 Ruby 有所了解,我可以向您推荐 Nokogiri,它是用于屏幕抓取的绝佳工具。

关于python - 从 html 文件中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7621910/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com