gpt4 book ai didi

python - 从嵌套的 HTML 中提取文本内容,同时排除一些特定的标签;废料

转载 作者:行者123 更新时间:2023-11-28 13:54:39 25 4
gpt4 key购买 nike

我正在尝试从具有嵌套内容的 HTML 标记中提取文本内容。我从另一个可以看到的相关问题中拿了这个例子here .

>>> from parsel import Selector
>>> sel = Selector(text='''
<p>
Senator <a href="/people/senator_whats_their_name">What&#39s-their-name</a> is <em>furious</em> about politics!
</p>''')
>>>
>>> # Using XPath
... sel.xpath('normalize-space(//p)').extract_first()
"Senator What's-their-name is furious about politics!"
>>>
>>> # Using CSS
... "".join(sel.css("p *::text").extract())
"Senator What's-their-name is furious about politics!"

这非常接近我想要的。但是,我想排除一些特定的标签。例如。我想从结果字符串中排除 a 标签的内容。 IE。我想得到:

参议员对政治感到愤怒!

我怎样才能达到预期的结果?我的偏好是继续使用 Scrapy/Parsel 来获取结果,但如果没有解决方案,我可以考虑使用任何其他第三方库。任何帮助将不胜感激。谢谢!

最佳答案

  • 这是使用 beautifulsoup 的有效解决方案。
  • 您可以在 scrapy 或 parsel 中找到类似的功能并使用类似的方法。
  • 思路是将要忽略的标签内容设置为''
  • 这是一个示例。
from bs4 import BeautifulSoup as bsp

soup = bsp(''' <p>
Senator <a href="/people/senator_whats_their_name">What&#39s-their-name</a> is <em>furious</em> about politics!
<h1> I want to be ignored</h1>
<h2> I should not be ignored</h2>.
</p>''', 'html.parser')

for tag in soup.find_all(['a', 'h1']): # give the list of tags you want to ignore here.
tag.replace_with('')

print(soup.text)

输出:

  Senator  is furious about politics!

I should not be ignored.
  • 以上代码将从文本中删除所有你想忽略的标签
  • 以下函数将仅更改 string(text) 并保持标签原样。
for tag in soup.find_all(['a', 'h1']):
tag.string.replace_with('')
print(soup)

输出:

 <p>
Senator <a href="/people/senator_whats_their_name"></a> is <em>furious</em> about politics!
<h1></h1>
<h2> I should not be ignored</h2>.
</p>

关于python - 从嵌套的 HTML 中提取文本内容,同时排除一些特定的标签;废料,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58904013/

25 4 0