gpt4 book ai didi

Python:使用 bs4 和 RegEx 仅解析来自 HTML 的文本

转载 作者:行者123 更新时间:2023-11-28 01:18:51 24 4
gpt4 key购买 nike

我正在使用 bs4 构建一个 python3 网络爬虫/抓取器。有些部分需要Reg Ex。我只想抓取文本内容。我应该如何解析这样的东西:

<p> This is blah blah
<a class="wordpresslink" href="https://wordpress.com/" rel="generator nofollow">WordPress.com</a>
<a href="http://www.whatever.com/"><span class="s1">Example</span></a>
Like blah blah
</p>

我想要输出:

This is blah blah WordPress.com Example Like blah blah

到目前为止我的代码:

import urllib.request
from bs4 import BeautifulSoup

u='https://en.wikipedia.org/wiki/Adivasi'
r=urllib.request.urlopen(u)
soup=BeautifulSoup(r.read(),'html.parser')

res = [i.text.replace('\n', ' ').strip() for i in soup.find_all('p')]
for p in res:
print(p)

最佳答案

使用 BeautifulSoup 解析器解析 html 文件。

>>> soup = BeautifulSoup(s)
>>> soup.find('p').text
u' This is blah blah\nWordPress.com\nExample\nLike blah blah\n'
>>> soup.find('p').text.replace('\n', ' ').strip()
u'This is blah blah WordPress.com Example Like blah blah'

如果有更多则使用find_all

[i.text.replace('\n', ' ').strip() for i in soup.find_all('p')]

关于Python:使用 bs4 和 RegEx 仅解析来自 HTML 的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34554209/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com