gpt4 book ai didi

对产品列表进行分类的算法?拍2张

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:22:16 24 4
gpt4 key购买 nike

我问了一个question similar几个星期前的这个,但我没有正确地问这个问题。所以我在这里重新提出这个问题的更多细节,我想得到一个更面向 AI 的答案。

我有一个列表,代表大致相同的产品。比如下面的列表,都是希捷硬盘。

  1. 希捷硬盘 500Go
  2. Seagate 硬盘驱动器 120Go 用于笔记本电脑
  3. Seagate Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s 硬盘
  4. Seagate 全新 Shiny 500Go 硬盘
  5. 希捷酷鱼 7200.12
  6. Seagate FreeAgent Desk 500GB 外置硬盘银色 7200RPM USB2.0 零售
  7. GE Spacemaker 劳德里
  8. 马自达 3 2010
  9. 马自达3 2009 2.3L

对于人类来说,3 号硬盘和 5 号硬盘是一样的。我们可以更进一步,假设产品 1、3、4 和 5 相同,并将产品 2 和 6 放在其他类别中。

在我之前的问题中,有人建议我使用特征提取。当我们有一个预定义描述的小数据集(所有硬盘驱动器)时它工作得很好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的特征提取器,它无法扩展。 是否有任何机器学习算法可以帮助我实现这一目标?我可以获得的描述范围很广,在第一行,它可能是冰箱,然后在下一行,一个硬盘。我应该尝试采用神经网络路径吗?我的输入应该是什么?

谢谢你的帮助!

最佳答案

我会看一些 Bayesian classification方法。这将涉及训练分类器将特定单词识别为指示产品属于您的类别之一的概率。例如,经过训练后,它可以识别出如果产品描述中有“Seagate”,则有 99% 的可能性是硬盘,而如果有“Mazda”,则有 97% 的可能性是汽车。像"new"这样的词可能最终不会对任何分类做出太大贡献,这正是您希望它工作的方式。

这样做的缺点是它通常需要相当大的训练数据集才能开始正常工作,但您可以对其进行设置,使其在生产过程中继续修改其百分比(如果您注意到它分类错误),它最终会变得非常有效。

贝叶斯技术最近在 spam-filtering applications 中被大量使用,因此最好阅读一下它在那里的使用方式。

关于对产品列表进行分类的算法?拍2张,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/744801/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com