gpt4 book ai didi

c# - 读取新闻文章实际内容并忽略页面上的 "noise"的算法?

转载 作者:太空狗 更新时间:2023-10-29 22:29:20 28 4
gpt4 key购买 nike

我正在寻找一种算法(或其他技术)来阅读网站上新闻文章的实际内容并忽略页面上的任何其他内容。简而言之,我正在以编程方式从 Google 新闻阅读 RSS 提要。我有兴趣抓取基础文章的实际内容。在我的第一次尝试中,我从 RSS 提要中获得了 URL,我只是跟随它们并从该页面抓取 HTML。这很明显导致了很多“噪音”,无论是 HTML 标签、标题、导航等。基本上所有与文章实际内容无关的信息。

现在,我明白这是一个极难解决的问题,理论上需要为每个网站编写一个解析器。 我感兴趣的是一种算法(我什至满足于提出一个想法),它是关于如何最大化我在下载文章时看到的实际内容并最小化噪音量。

一些额外的注意事项:

  • 抓取 HTML 只是我尝试的第一次尝试。我不相信这是做事的最佳方式。
  • 我不想为我遇到的每个网站都编写解析器,我需要接受 Google 通过 RSS 提要提供的任何内容的不可预测性。
  • 我知道我最终得到的任何算法都不会完美,但我对最佳解决方案很感兴趣。

有什么想法吗?

最佳答案

只要您接受这样一个事实,即根据您的要求,无论您尝试什么都将非常粗略,我建议您查看 Bayesian filtering .事实证明,这种技术在过滤电子邮件中的垃圾邮件方面非常有效。

关于c# - 读取新闻文章实际内容并忽略页面上的 "noise"的算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1451894/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com