gpt4 book ai didi

python - 使用 BeautifulSoup Python 获取特定文本,例如 "Something new"

转载 作者:行者123 更新时间:2023-11-28 22:47:38 24 4
gpt4 key购买 nike

我正在制作一个有针对性的爬虫,在为文档中的关键短语查找 a 时遇到问题。

假设我要在文档中搜索的关键词是“Something new”

在 python 中使用 BeautifulSoup 我执行以下操作

if soup.find_all(text = re.compile("Something new",re.IGNORECASE)):
print true

我希望它只在以下情况下打印 true

“新东西” --> 正确

“$#something new,.” --> 正确

并且不适用于以下情况:

"thisSomething 新闻"--> false

"Somethingnew"--> 错误

假设允许使用特殊字符。

以前有没有人做过这样的事情。 ??

感谢您的帮助。

最佳答案

然后,搜索 something new 并且不要应用 re.IGNORECASE:

import re

from bs4 import BeautifulSoup


data = """
<div>
<span>something new</span>
<span>$#something new,.</span>
<span>thisSomething news</span>
<span>Somethingnew</span>
</div>
"""

soup = BeautifulSoup(data)
for item in soup.find_all(text=re.compile("something new")):
print item

打印:

something new
$#something new,.

您也可以采用非正则表达式方法和 pass a function而不是编译的正则表达式模式:

for item in soup.find_all(text=lambda x: 'something new' in x):
print item

对于上面使用的示例 HTML,它还打印:

something new
$#something new,.

关于python - 使用 BeautifulSoup Python 获取特定文本,例如 "Something new",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26050080/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com