gpt4 book ai didi

java - 不同类别的产品比较

转载 作者:行者123 更新时间:2023-11-30 09:57:15 25 4
gpt4 key购买 nike

我正在寻找价格比较网站,例如 this 。因此,问题是它如何知道来自两个不同站点的两种产品是同一产品,并将这两种产品放入同一个存储桶中以显示价格比较。

如果只是书籍,我可以理解所有书籍都有独特的 ISBN因此,只需编写一些特定于网站的代码即可从网站获取数据并进行比较。

例如您有两个网站:

www.xyz.com
www.pqr.com

现在这两个网站列出的书籍不同,即 html 会不同,因此解析 HTML 并获取 ISBN , price从中。比对应的ISBN我们可以把两个网站的价格。这很简单,但是您将如何解析没有 id 的产品在 ISBN 等网站上,它是独特且统一的(例如压力锅、 watch 等)。

谢谢。

最佳答案

其他产品也有识别码,在欧洲它是 EAN,目前已转换为名为 GTIN 的全局号码。在电子商务中,通常会使用亚马逊 ID(ASIN,其中 ISBN 是其子集)。

如果您没有这些可用数字(通常是这种情况),您将需要一种名为记录链接数据匹配的策略。

TL;DR 它通常使用字符串匹配算法来查找类似的“措辞”产品(例如,使用 n-gram 上的倒排索引)。最后,您可以使用机器学习来删除错误的匹配(误报)。这需要大量的训练数据(没有可用的公共(public)数据集或太少),因此大多数时候人们会检查这些匹配。

为了更详细地分析问题,我只能推荐阅读这本书Data Matching by Peter Christen 。它深入探讨信息检索(如何找到类似产品),然后如何使用机器学习(例如通过结构分析)来筛选错误或正确的匹配。

网上也有很多他写的论文,所以查看 his scholar profile .

关于java - 不同类别的产品比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20392177/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com