- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在寻找一种算法(或其他技术)来阅读网站上新闻文章的实际内容并忽略页面上的任何其他内容。简而言之,我正在以编程方式从 Google 新闻阅读 RSS 提要。我有兴趣抓取基础文章的实际内容。在我的第一次尝试中,我从 RSS 提要中获得了 URL,我只是跟随它们并从该页面抓取 HTML。这很明显导致了很多“噪音”,无论是 HTML 标签、标题、导航等。基本上所有与文章实际内容无关的信息。
现在,我明白这是一个极难解决的问题,理论上需要为每个网站编写一个解析器。 我感兴趣的是一种算法(我什至满足于提出一个想法),它是关于如何最大化我在下载文章时看到的实际内容并最小化噪音量。
一些额外的注意事项:
有什么想法吗?
最佳答案
只要您接受这样一个事实,即根据您的要求,无论您尝试什么都将非常粗略,我建议您查看 Bayesian filtering .事实证明,这种技术在过滤电子邮件中的垃圾邮件方面非常有效。
关于c# - 读取新闻文章实际内容并忽略页面上的 "noise"的算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1451894/
关闭。这个问题不符合 Stack Overflow guidelines 。它目前不接受答案。 想改进这个问题?更新问题,使其成为 Stack Overflow 的 on-topic。 5年前关闭。
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在尝试使3D Perlin噪声算法适应较低的尺寸,但是由于我不完全了解其原因,我在使用梯度函数时遇到了麻烦。 原始的Perlin梯度函数采用四个参数:hash和三维坐标(x, y, z)。该函数的
我想为音频文件添加噪音。有没有办法在 SoX(或其他工具)中实现这一点? 我正在进行机器学习研究,需要在存在噪声的情况下测试我的算法。理想情况下,我想指定一个信噪比并添加噪声以达到该目标 SNR。 我
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
我正在编写以字符串形式接收数据段的代码。该字符串的大小不同,但始终以相同的字符开头和结尾( start: '' )。我想防止用户在段开始和结束之前输入无效字符时出错。例如 "fdslkjds" "df
我正在尝试寻找一种无需借助宏即可减少语法“噪音”的方法。对于以下代码: struct base { base() = delete; }; struct tag1 final : private
我正在 C# winforms 项目中使用“不安全”代码创建(然后更改)位图。每 30 毫秒左右执行一次。我遇到的问题是“噪音”或随机像素有时会出现在生成的位图中,而我没有特别更改任何内容。 例如,我
我的任务似乎是琐碎的 找出给定录音的“噪音”。 录音是通过录音机, OLYMPUS VN-733 PC相当便宜(我没有在做 广告,我只提到这一点,因为我绝不 打算在这里做任何“专业”的事情,我只需要
如何使用 MatLab 计算信噪比? 更新 我只有一个文件,而不是示例中的两个,它是一个 .tif。 最佳答案 Matlab SNR 的第一个 Google 结果.从那里复制,以 dB 为单位: sn
我想使用 Perlin Noise 创建一个 2D float 列表。我希望每次运行程序时生成的值都不同。但是,我不确定如何为我在 GitHub here 上找到的噪声库提供随机种子。 . 如何让程序
我正在准备一个文本文件语料库,其中包含 170 部荷兰小说。我是一名文学学者,对 Python 以及一般编程也比较陌生。我想做的是编写一个 Python 脚本,用于删除每个 .txt 文件中不属于小说
上周我正在开发一个世界生成器(用于 Minecraft 模组)。但是,我不只是在寻找 Perlin 噪声,而是在寻找基于细胞噪声的东西。我想生成一种地下实验室,存在几个不同大小的房间。 为了解释这个问
我已经实现了 native Android SIP solution在我的 Android 应用中。 SipProfile.Builder builder = new SipProfile.Build
我正在尝试用 C++ 实现 Perlin Noise。 首先,问题(我认为)是输出不是我所期望的。目前我只是在灰度图像中使用生成的 Perlin 噪声值,这是我得到的结果: 但是,根据我的理解,它应该
我正在寻找一种算法(或其他技术)来阅读网站上新闻文章的实际内容并忽略页面上的任何其他内容。简而言之,我正在以编程方式从 Google 新闻阅读 RSS 提要。我有兴趣抓取基础文章的实际内容。在我的第一
当我使用 valgrind 帮助调试我正在开发的应用程序时,我注意到大量噪音似乎是在提示标准库。作为测试,我这样做了; echo 'int main() {return 0;}' | gcc -x c
我知道什么是柏林噪音(我写了一些代码来生成它)。 我认为分形噪声是按比例缩放并求和的 Perlin 噪声,对吗? 我有时会在同一篇文章中看到湍流噪声和柏林噪声,但随后这篇文章只讨论了柏林噪声。它们有什
有没有详细介绍 Perlin 噪声生成的好资源?我知道大多数语言都有可用的噪声生成库,但我有兴趣创建自己的库以获取乐趣/体验。我已经看过this ,这看起来很流行,但它只给出了一维噪声的深入解释。到目
许多 Perlin Noise 教程和实现( here 、 here 、 here 等)使用函数来生成如下伪随机值: function Noise(integer x, integer y)
我是一名优秀的程序员,十分优秀!