gpt4 book ai didi

python - 抓取时如何消除某些元素?

转载 作者:太空宇宙 更新时间:2023-11-04 03:32:13 24 4
gpt4 key购买 nike

所以我不确定如何在这里进行。我有一个我试图抓取的页面示例:

http://www.yonhapnews.co.kr/sports/2015/06/05/1001000000AKR20150605128600007.HTML?template=7722

现在我有 xpath 选择“文章”div 类,然后是后续的 <p>然后我总是可以删除第一个,因为它是相同的股票新闻文本(城市、联合新闻、记者等)我正在评估单词密度,所以这对我来说可能是个问题:(

问题出现在文章末尾。如果你看向最后,有一个记者的电子邮件地址和发布日期和时间......

问题是在这个站点的不同页面上,有不同数量的<p>。标签接近尾声,所以我不能只删除最后两个,因为它有时仍然会影响我的结果。

您将如何消除那些特定的 <p>元素接近尾声?之后我是否只需要尝试清理我的数据?

这是选择路径并消除第一个 <p> 的代码片段和最后两个。我应该如何更改它?

# gets all the text from the listed div and then applies the regex to find all word objects in hanul range
hangul_syllables = response.xpath('//*[@class="article"]/p//text()').re(ur'[\uac00-\ud7af]+')

# For yonhapnews the first and the last two <p>'s are useless, everything else should be good
hangul_syllables = hangul_syllables[1:-2]

最佳答案

您可以调整您的 XPath 表达式,使其不包含具有 class="adrs"(发布日期)的 p 标记:

//*[@class="article"]/p[not(contains(@class, "adrs"))]//text()

关于python - 抓取时如何消除某些元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30661341/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com