gpt4 book ai didi

machine-learning - 仅根据博客 Prop 和内容预测 3 个相似博客的最佳算法

转载 作者:行者123 更新时间:2023-11-30 09:48:37 25 4
gpt4 key购买 nike

{
“博客”:11,
“博客作者id”:2,
"blog_content": "(这是博客完整内容:在base64上编码的html,例如) PHNlY3Rpb24+PGRpdiBjbGFzcz0icm93Ij4KICAgICAgICA8ZGl2IGNsYXNzPSJjb2wtc20tMTIiIGRhdGEtdHlwZT0iY29udGFpbmVyLWNvbnRlbn",
"blog_timestamp": "2018-03-17 00:00:00",
"blog_title": "亚马逊印度时装周:秋季-",
"blog_subtitle": "",
"blog_featured_img_link": "图片链接",
"blog_intropara": "文章的介绍性段落",
“博客状态”:1,
"blog_lastupdated": "\"2018 年 3 月 19 日上午 7:42:23\"",
"blog_type": "博客",
"blog_tags": "1,4,6",
"blog_uri": "亚马逊-印度-时装周-秋季",
“博客类别”:“1”,
“blog_readtime”:“5”,
“浏览次数”:0
}

以上是根据我的 API 编写的一个示例博客。我有一个此类博客的 JsonArray。

我试图根据博客的属性(例如:标签、类别、作者、标题/副标题中的关键字)和内容来预测 3 个类似的博客。我没有用户数据,即没有登录的用户数据(例如评分或评论)。我知道如果没有用户数据,它就不会准确,但我刚刚开始接触数据科学或机器学习。任何建议/链接表示赞赏。我更喜欢使用 java,但 python、php 或任何其他语言也适合我。因为我是初学者,所以我需要一个易于实现的模型。提前致谢。

最佳答案

我的直觉是这个问题可能不在正确的地址。

但是

我会执行以下操作:

  1. 创建一个网站数据集,作为预测 list 。对于每个网站,您需要列出一项或多项功能:标签数量、帖子数量、帖子之间的平均时间(以天为单位)等。
    听起来这是为了训练,你不担心准确性太多了,数字特征就足够了。
  2. 从 k-NN 算法进行回溯。不用担心分类器。您无需对博客进行分类,而是列出 3 个最近的邻居 (k = 3)。该算法的一个很好的实现是 here 。享受根据您的目的进行简化的乐趣。

您的算法应该比 k-NN 短一两步,k-NN 被认为是更简单的 ML 之一,是一个很好的起点。

祝你好运。

编辑:

您想要使用文本、标签、数字以及时间序列数据构建推荐引擎。这是一个广泛的要求。就像您一样,当面对这个请求时,我需要深入研究数据和研究最佳方法。有些方法需要不同的数据集。例如。协作过滤与基于内容的过滤。

  • 用户端可能遗漏了一些可以像评级一样使用的东西:您不需要登录功能获取信息:Cookie ID 或基于 IP 的 DMA、GEO 和观看持续时间应该可供用户使用网络服务器。
  • 在博客方面:您需要处理文本以识别相关术语。其他博客功能我在上面给出了例子。

我知道这有点夸张,但这里没有实际的代码问题。重申一下我的直觉,这个问题可能没有提出正确的地址。我真的很想帮忙,但这是我能做的最好的了。

编辑2:

如果我正确理解您的新评论,每个博客都有以下内容:

  • 杰卡德相似系数。
  • 一组 TF-IDF 生成的单词分数。
  • 基于数值数据的欧几里得距离。

我会创建一个 heuristic并允许流程调整每个统计数据的重要性。
挑战在于量化 TF-IDF 输出的单词分数。您可以将这些(超过一定分数)视为标签并运行另一个相似性分析,或计算重叠。

您已经开始走这条路,并且此答案假设您将继续。 IMO 的最佳途径是查看哪些专用推荐引擎可以帮助您,而无需构建零散的统计数据(带欧几里德的数字、带 Jaccard 的标签、带 TF-IDF 的文本)。

关于machine-learning - 仅根据博客 Prop 和内容预测 3 个相似博客的最佳算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49063169/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com