python - 从嵌套的 HTML 中提取文本内容，同时排除一些特定的标签；废料-6ren

python - 从嵌套的 HTML 中提取文本内容，同时排除一些特定的标签；废料

转载作者：行者123 更新时间：2023-11-28 13:54:39

25

4

我正在尝试从具有嵌套内容的 HTML 标记中提取文本内容。我从另一个可以看到的相关问题中拿了这个例子here .

>>> from parsel import Selector
>>> sel = Selector(text='''
    <p>
        Senator <a href="/people/senator_whats_their_name">What&#39s-their-name</a> is <em>furious</em> about politics!
    </p>''')
>>>
>>> # Using XPath
... sel.xpath('normalize-space(//p)').extract_first()
"Senator What's-their-name is furious about politics!"
>>>
>>> # Using CSS
... "".join(sel.css("p *::text").extract())
"Senator What's-their-name is furious about politics!"

这非常接近我想要的。但是，我想排除一些特定的标签。例如。我想从结果字符串中排除 a 标签的内容。 IE。我想得到:

参议员对政治感到愤怒!

我怎样才能达到预期的结果？我的偏好是继续使用 Scrapy/Parsel 来获取结果，但如果没有解决方案，我可以考虑使用任何其他第三方库。任何帮助将不胜感激。谢谢!

最佳答案

这是使用 beautifulsoup 的有效解决方案。
您可以在 scrapy 或 parsel 中找到类似的功能并使用类似的方法。
思路是将要忽略的标签内容设置为''
这是一个示例。

from bs4 import BeautifulSoup as bsp

soup = bsp(''' <p>
        Senator <a href="/people/senator_whats_their_name">What&#39s-their-name</a> is <em>furious</em> about politics!
        <h1> I want to be ignored</h1>
        <h2> I should not be ignored</h2>.
    </p>''', 'html.parser')

for tag in soup.find_all(['a', 'h1']): # give the list of tags you want to ignore here.
    tag.replace_with('')

print(soup.text)

输出:

  Senator  is furious about politics!

 I should not be ignored.

以上代码将从文本中删除所有你想忽略的标签。
以下函数将仅更改 string(text) 并保持标签原样。

for tag in soup.find_all(['a', 'h1']):
    tag.string.replace_with('')
print(soup)

输出:

 <p>
        Senator <a href="/people/senator_whats_their_name"></a> is <em>furious</em> about politics!
        <h1></h1>
<h2> I should not be ignored</h2>.
    </p>

关于python - 从嵌套的 HTML 中提取文本内容，同时排除一些特定的标签；废料，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58904013/

25

4

0

文章推荐： javascript - 将这两个值传递给 CSS 中的变量

文章推荐： javascript - Bootstrap Sidebar 仅在单击两次后打开

文章推荐： javascript - 排列图像缩略图

文章推荐：使用 Wordpress 插件覆盖 CSS

首页

博学

6Ren·AI

商城

python - 从嵌套的 HTML 中提取文本内容，同时排除一些特定的标签；废料

标签)？
根据 Web 标准，创建带有标题 1 的链接的正确代码是什么？是吗 stackoverflow 或 stackoverflow 谢谢最佳答案根据网络标准，您不能将 block 元素放入内

首页

博学

6Ren·AI

商城

python - 从嵌套的 HTML 中提取文本内容，同时排除一些特定的标签；废料

标签)？ 根据 Web 标准，创建带有标题 1 的链接的正确代码是什么？ 是吗 stackoverflow 或 stackoverflow 谢谢 最佳答案 根据网络标准，您不能将 block 元素放入内

标签)？
根据 Web 标准，创建带有标题 1 的链接的正确代码是什么？是吗 stackoverflow 或 stackoverflow 谢谢最佳答案根据网络标准，您不能将 block 元素放入内