gpt4 book ai didi

python - 抓取以某个单词开头的网页句子

转载 作者:行者123 更新时间:2023-11-30 23:35:13 24 4
gpt4 key购买 nike

我正在使用 BeautifulSoup 和 python 抓取网页,并希望抓取页面上以“Text Start:”开头的每个句子,如下面的代码所示。每个句子也以逗号结尾,后跟月日形式的日期(下面是 5-4)。这样的例子有很多,所以我想浏览一下页面并返回以“文本开始:”。

我一直在尝试使用 BeautifulSoup 包来做到这一点,但遇到了麻烦。我认为我应该使用正则表达式,所以我一直在尝试,但还没有真正取得任何进展。

<div class="class">
<div class="time">
<span class="date">07/02/13</span>
<span class="sep">|</span>
<span class="duration">02:15</span>
<div class="clear"></div>
</div>
Text Start: This text changes each time, 5-4
</div>

最佳答案

使用 regular expression匹配specific text contents :

import re

soup.find_all(text=re.compile('^\s*Text Start:.*'))

演示:

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('''\
... <div class="class">
... <div class="time">
... <span class="date">07/02/13</span>
... <span class="sep">|</span>
... <span class="duration">02:15</span>
... <div class="clear"></div>
... </div>
... Text Start: This text changes each time, 5-4
... </div>
... ''')
>>> import re
>>> soup.find_all(text=re.compile('^\s*Text Start:.*'))
[u'\nText Start: This text changes each time, 5-4\n']

关于python - 抓取以某个单词开头的网页句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17503336/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com