gpt4 book ai didi

algorithm - Google 新闻如何自动将文章分类为科技/科学/健康/娱乐/等?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:30:13 26 4
gpt4 key购买 nike

假设我选择了一个随机来源,例如 CNN。根据关键字自动将抓取的文章分类,或者针对不同的类别抓取网站的各个部分,例如 cnn.com/tech 或/entertainment,这样会更有利吗?第二个选项不容易扩展,我不想为不同的来源手动配置 url。 Google 新闻如何解决这个问题?

最佳答案

这是 2005 年的 Google 专利

"Systems and methods for improving the ranking of news articles"

以及 2012 年的更新:

SYSTEMS AND METHODS FOR IMPROVING THE RANKING OF NEWS ARTICLES

如果你想自己构建一个简单的系统,我会这样做:

拿一堆已经分类为体育/科技/其他的新闻报道。

将它们标记为单个单词和克(短单词序列)。

创建一个非常大的表,以独特的单词和克作为列,以单个故事作为行:

StoryId  Class  word1  word2  gram1  gram2 ...

1 sports 0 0.2 0.01 0
2 tech 0.5 0.01 0 0.3
3 sports 0 0.1 0.3 0.01

其中单元格中的值表示文档中单词的频率、二进制出现或 TF-IDF 分数。

使用朴素贝叶斯或支持向量机等分类算法来了解列相对于类标签的权重。这称为您的模型。

当你得到一个新的、未分类的文档时,以与以前相同的方式对其进行标记化,应用你之前创建的模型,它会给你文档最有可能的类别标签。

这是我的视频系列,其中包括一个关于自动文档分类的视频:

http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html

关于algorithm - Google 新闻如何自动将文章分类为科技/科学/健康/娱乐/等?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18819204/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com