gpt4 book ai didi

web-crawler - 从文章中提取作者

转载 作者:行者123 更新时间:2023-12-04 16:19:22 25 4
gpt4 key购买 nike

正如标题所说,我一直在努力爬取文章,剩下的就是作者。

下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白

目标站点:http://business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/

def extract_text_pyquery(html):
p = pq(html)
article_whole = p.find(".entry")
p_tag = article_whole('p')
print len(p_tag)
print p_tag
for i in range (0, len(p_tag)):
text = p_tag.eq(i).text()
print text
entire = p.find("#main")
author = entire.find('a').filter('.author')
print 'By:', author

最佳答案

该类(class)不是作者,rel是;期间选择一个类(class)。你应该过滤 '[rel="author"]' , 括号让您可以在非标准标签上归档。

关于web-crawler - 从文章中提取作者,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26132190/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com