gpt4 book ai didi

python - 使用 BeautifulSoup 排除不需要的 findAll 结果

转载 作者:太空狗 更新时间:2023-10-29 18:30:41 26 4
gpt4 key购买 nike

使用 BeautifulSoup,我的目标是抓取与此 HTML 钩子(Hook)关联的文本:

<p class="review_comment">

所以,使用如下简单的代码,

content = page.read()  
soup = BeautifulSoup(content)
results = soup.find_all("p", "review_comment")

我很乐意解析这里的文本:

<p class="review_comment">
This place is terrible!</p>

坏消息是每 30 次左右 soup.find_all得到一个匹配,它也匹配并抓取一些我真的不想要的东西,这是一个用户的旧评论,他们已经更新了:

<p class="review_comment">
It's 1999, and I will always love this place…
<a href="#" class="show-archived">Read more &raquo;</a></p>

为了排除这些旧的重复评论,我尝试了各种想法。

  • 我一直在尝试改变我的 soup.find_all() 中的论点称呼专门排除所有出现在 <a href="#"
    class="show-archived">Read more &raquo;</a>
    之前的文本
  • 我陷入了正则表达式类型的匹配困境,但没有成功。
  • 我似乎无法利用 class="show-archived"属性。

如有任何想法,我们将不胜感激。提前致谢。

最佳答案

这就是你要找的吗?

for p in soup.find_all("p", "review_comment"):
if p.find(class_='show-archived'):
continue
# p is now a wanted p

关于python - 使用 BeautifulSoup 排除不需要的 findAll 结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19351541/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com