gpt4 book ai didi

machine-learning - 网页推荐系统

转载 作者:行者123 更新时间:2023-11-30 08:27:20 25 4
gpt4 key购买 nike

我正在尝试构建一个推荐系统,该系统会根据用户的操作(谷歌搜索、点击,他还可以明确地对网页进行评分)向用户推荐网页。为了了解谷歌新闻的做法,它会显示来自网络的有关特定主题的新闻文章。用技术术语来说就是集群,但我的目标是相似的。它将根据用户的操作进行基于内容的推荐。

所以我的问题是:

  1. 我怎样才能在互联网上搜索相关网页?
  2. 我应该使用什么算法从网页中提取数据?文本分析和词频是唯一的方法吗?
  3. 最后,什么平台最适合解决这个问题。我听说过 Apache mahout,它附带了一些可重用的算法,听起来很合适吗?

最佳答案

正如 Thomas Jungblut 所说,一个人可以就你的问题写出几本书;-)我将尝试为您提供一系列简短的指示 - 但请注意,不会有现成的解决方案......

  1. 抓取互联网:有很多工具包可以完成此任务,例如用于 Python 的 Scrapy、用于 Java 的crawler4j 和 Heritrix,或用于 Perl 的 WWW::Robot。要从网页中提取实际内容,请查看boilerpipe。

    http://scrapy.org/

    http://crawler.archive.org/

    http://code.google.com/p/crawler4j/

    https://metacpan.org/module/WWW::Robot

    http://code.google.com/p/boilerpipe/

  2. 首先,您通常可以使用协作过滤而不是基于内容的方法。但如果你想获得良好的覆盖率,尤其是长尾的覆盖率,就没有办法绕过分析文本。需要注意的一件事是主题建模,例如LDA。 Mallet、Apache Mahout 和 Vowpal Wabbit 中实现了多种 LDA 方法。对于索引、搜索和文本处理,请查看 Lucene。这是一个很棒的、成熟的软件。

    http://mallet.cs.umass.edu/

    http://mahout.apache.org/

    http://hunch.net/~vw/

    http://lucene.apache.org/

  3. 除了 Apache Mahout(还包含 LDA(见上文)、集群和文本处理等内容)之外,如果您想专注于协作过滤,还可以使用其他工具包:LensKit,它也是用 Java 实现的,和 MyMediaLite(免责声明:我是主要作者),它是用 C# 实现的,但也有一个 Java 端口。

    http://lenskit.grouplens.org/

    http://ismll.de/mymedialite

    https://github.com/jcnewell/MyMediaLiteJava

关于machine-learning - 网页推荐系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12778823/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com