gpt4 book ai didi

python-3.x - 使用 python 和 bs4 获取 url 中短语的数量

转载 作者:行者123 更新时间:2023-12-04 09:49:20 25 4
gpt4 key购买 nike

我想获取出现在 URL 中的任何短语的数量,比如 https://en.wikipedia.org/wiki/India .

import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/wiki/India'

r = requests.get(url)
soup = BeautifulSoup(r.text,'lxml')

现在,我想得到短语 India is a 的数量。在汤里。如何解决这个问题?

请建议。

最佳答案

这可以通过以下两种方式之一完成。

一、公分母:

texts = soup.find_all(text=True)
cleaned = ["".join(t.strip()) for t in texts]
counter=0

现在,如果你想使用正则表达式:
import re
regex = re.compile(r'\bIndia is a\b')
for c in cleaned:
if regex.match(c) is not None:
counter+=1

我个人不喜欢使用正则表达式,除非作为最后的手段,所以我会走更长的路
phrase = 'India is a'
for c in cleaned:
if phrase==c or phrase+' ' in c:
counter+=1

在这两种情况下, print(counter)输出 6 .

请注意,有意地,这些不包括短语是较大短语的一部分(例如 India is also )的 3 种情况;它只计算确切的短语或后跟空格的短语。

关于python-3.x - 使用 python 和 bs4 获取 url 中短语的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62036096/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com