c# - 读取新闻文章实际内容并忽略页面上的 "noise"的算法？-6ren

c# - 读取新闻文章实际内容并忽略页面上的 "noise"的算法？

转载作者：太空狗更新时间：2023-10-29 22:29:20

28

4

我正在寻找一种算法(或其他技术)来阅读网站上新闻文章的实际内容并忽略页面上的任何其他内容。简而言之，我正在以编程方式从 Google 新闻阅读 RSS 提要。我有兴趣抓取基础文章的实际内容。在我的第一次尝试中，我从 RSS 提要中获得了 URL，我只是跟随它们并从该页面抓取 HTML。这很明显导致了很多“噪音”，无论是 HTML 标签、标题、导航等。基本上所有与文章实际内容无关的信息。

现在，我明白这是一个极难解决的问题，理论上需要为每个网站编写一个解析器。 我感兴趣的是一种算法(我什至满足于提出一个想法)，它是关于如何最大化我在下载文章时看到的实际内容并最小化噪音量。

一些额外的注意事项:

抓取 HTML 只是我尝试的第一次尝试。我不相信这是做事的最佳方式。
我不想为我遇到的每个网站都编写解析器，我需要接受 Google 通过 RSS 提要提供的任何内容的不可预测性。
我知道我最终得到的任何算法都不会完美，但我对最佳解决方案很感兴趣。

有什么想法吗？

最佳答案

只要您接受这样一个事实，即根据您的要求，无论您尝试什么都将非常粗略，我建议您查看 Bayesian filtering .事实证明，这种技术在过滤电子邮件中的垃圾邮件方面非常有效。

关于c# - 读取新闻文章实际内容并忽略页面上的 "noise"的算法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1451894/

28

4

0

文章推荐： c# - DataGridView - AllowUserToAddRows 有什么作用？

文章推荐： python - 如何在matplotlib中绘制 "two directions widths line"

文章推荐： c# - 网络观察者

python - 文章/api/文章 : Cannot import name ArticleResource 处出现导入错误
我正在尝试创建一个 Django 网站，每次在本地主机上运行/articles/api/article 页面时:我都会收到此回溯: Environment: Request Method: GET R
Facebook 开放图谱对象类型 - 文章？
我正在尽最大努力理解开放图谱协议(protocol)中的一切含义阅读 FB page在上面和 OGP Page .这在 FB 和 OGP 的世界中究竟意味着什么: Note that the Open
html - 页脚重叠内容/文章
我的 HTML/CSS 中存在页脚与文章内容重叠的问题。是的，我一直在网上搜索但似乎没有任何效果，我希望你知道它有什么问题。我在这里做了一个codepen: CodePen LINK
algorithm - 关于空间索引的好书/文章
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
javascript - 为什么函数中的变量没有传递给 HTML 文章？
我可以将变量作为警报显示在函数中，但无法将变量传递给文章。我做错了什么？我知道“a”保存了正确的信息，因为我已经通过警报显示了它。我尝试使用以下方式传递变量:placeholderContent.
ruby - Ruby 中的 A/An 文章
这个问题已经有答案了: Rails article helper - "a" or "an" (6 个回答) 已关闭 3 年前。是否有类似 [#pluralize in ActiveSupport]
ruby - Ruby 中的 A/An 文章
这个问题已经有答案了: Rails article helper - "a" or "an" (6 个回答) 已关闭 3 年前。是否有类似 [#pluralize in ActiveSupport]
mysql - 书籍-文章-图像的数据库架构建议
我有以下型号。 Book has Articles (Article has foreign key to Book) Article has Images (Article has upto #ma
php - 如何过滤多个类别并显示它的帖子/文章 PHP
我创建了一个页面，该页面显示了单个类别下的所有帖子，即如果我单击类别音乐，我将获得与音乐类别相关的所有文章。但我的目标是创建一个过滤选项，它可以过滤掉某些类别，并且只显示与您过滤的类别相关的所有帖
php - 关于从数据库中获取 Joomla 文章
我使用这样的代码: $query = "SELECT introtext FROM #__content WHERE alias = '$alias'"; $db->setQuery($query);
css - Joomla 文章/列插入填充
我在主页上设置了一些特色文章。显示的所有文章似乎都剩下太多填充。我知道足以进入 css 并在 layout.css 上编辑 .itembody 的填充或边距，但似乎没有任何改变。我希望我的文章通过模块
java - ORM:文章、修订和主要修订
ORM 中存储文章及其修订的最佳实践是什么？当我自己用SQL存储时，我曾经有以下结构: articles [id, parent_id, name, text] 通过parent_id，我可以轻松识
html - 输入单选激活时按类值激活显示 block 文章？
我的 HTML : Interest About Interest
javascript - mongodb 文章.长度未定义
我正在用jade构建一个nodejs、express、mongodb博客。我的文件夹结构是:项目/ 模块/ 观点/ 索引.jade 应用程序.js 文章提供者内存.js 文章provider-mon
string - 文章 "Matching"算法
我的问题比较具体，至少对我来说是这样。具体是因为在做了很多搜索之后我找不到任何有用的东西。因此，正如标题所说，我正在寻找一种算法，它会发现输入中给出的两篇文章是否“匹配”，但不是通常的字符串匹配意义上
algorithm - 理解动态规划的好例子、文章、书籍
关闭。这个问题是off-topic .它目前不接受答案。 9年前关闭。锁定。这个问题及其答案是locked因为这个问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我无法弄清楚动态编程的原
css - 如何在两栏中 float 文章？
我有这个问题。我正在建立一个社交网站，我必须在两栏中创建帖子。父容器是一个部分，元素“post”是样式为 float: left 的文章。我如何让滑到那些较短的下方创建的空白空间的帖子？最佳答案 c
PHP - 从文件或数据库获取 HTML 文章？
这里有几个关于文件与数据库的问题，但我仍然不确定使用什么以及为什么在我的案例中应该使用它。我的网站上有很多 HTML 文章(长度在几百到几千字之间)。在数据库 (MySQL) 中，我有一个没有搜索索
文章《SemanticKernel--LangChain的替代品？》的错误和疑问探讨
微信公众号文章 Semantic Kernel —— LangChain 的替代品? [1] ，它使用的示例代码是Python ，他却发了这么一个疑问：支持的语言对比（因为 Sem
javascript - Polymer 中的循环 WordPress 文章
我想编写一个 polymer 元素来显示一些 WordPress 文章。 http://www.jsv-lippstadt.de/?json=get_category_posts&slug=app

首页

博学

6Ren·AI

商城

c# - 读取新闻文章实际内容并忽略页面上的 "noise"的算法？