gpt4 book ai didi

python - 网页抓取 - 如何识别网页上的主要内容

转载 作者:IT老高 更新时间:2023-10-28 21:33:16 26 4
gpt4 key购买 nike

给定一个新闻文章网页(来自任何主要新闻来源,如时代或彭博社),我想确定该页面上的主要文章内容,并排除其他杂项元素,如广告、菜单、侧边栏、用户评论。

在大多数主要新闻网站上都可以使用的通用方法是什么?

有哪些好的数据挖掘工具或库? (最好基于python)

最佳答案

有很多方法可以做到这一点,但没有一种方法总是有效的。这里有两个最简单的:

  • 如果它是一组已知的有限网站:在您的抓取工具中,将每个 url 从普通 url 转换为给定网站的打印 url(不能真正跨网站推广)
  • 使用 arc90 可读性算法(引用实现在 javascript 中)http://code.google.com/p/arc90labs-readability/ .该算法的简短版本是它查找其中带有 p 标签的 div。它不适用于某些网站,但总体上还不错。

关于python - 网页抓取 - 如何识别网页上的主要内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4672060/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com