gpt4 book ai didi

artificial-intelligence - 比较电子产品规范的相似文字说明

转载 作者:行者123 更新时间:2023-12-04 08:43:59 25 4
gpt4 key购买 nike

我有一个电子产品目录。我将它们放在 SQL DB 中的字段/列中,例如 Title、Mfg Part Nr、UPC 等。然后我爬过列出电子产品的外部网站,例如亚马逊。在大多数情况下,这会产生一些 HTML 文本,但我可以找出标题。我需要比较此 HTML 文本(外部网站上的网页结果)是否描述了我拥有的产品。

我知道这种比较并不准确,即我不希望这能 100% 地纠正。有没有办法做到这一点?

虽然很难提供一个完整的例子,但让我们将比较限制在两个产品的标题上。

标题我有:摩托罗拉 Talkabout MH230R 可移植 - 双向 radio - FRS/GMRS 22 channel - 黄色(3 件装)

亚马逊的标题:摩托罗拉 MH230TPR Giant 可充电两路 radio 3 件装,FRS/GMRS

这些代表相同的产品。有没有办法确定这些是否相似/相同?简单的文本比较是行不通的。

如果有工具可以解决这个问题,那就太好了。如果不是,我会很感激我可以用来进一步研究这个领域的算法或一些指针。

我知道 C# 和 Java。在比较图像和寻找最佳点时,我使用了一些与数值分析相关的人工智能/神经网络——特别是反向传播和遗传算法。但是,我不知道如何处理文本数据。

如果这个问题不清楚,请告诉我,我会尽力澄清我的描述。
谢谢你们。

最佳答案

当然有很多算法可以处理字符串中的文本相似性和距离度量(对于 short list of them look in wikipedia )。以下是如何更具体地解决该问题的一些想法:

  • 当两个产品字符串共享相同的品牌名称时,设置一个包含品牌名称的字典,并在您的整体相似度函数中给予它较高的权重。
  • 如果更长的数字匹配,则给它一个高的相似度值。
  • 以摆脱连字符和其他东西的方式标准化输入文本字符串。
  • 使用一种以上的相似性度量。

  • 通常,如果您设法将有关此类字符串的知识投入到您编写的代码中,而不是使用一般方法,那么您会获得更好的结果……但是,既然您来自 AI/神经网络背景……您可以找出什么如果您生成输入字符串的有用描述符,则通过机器学习技术使字符串相似。为此,您需要一个足够大的已经正确分配的匹配产品字符串的基础。

    但也许你需要一些非常简单的东西?然后查看 agrep

    关于artificial-intelligence - 比较电子产品规范的相似文字说明,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16403624/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com