gpt4 book ai didi

solr - 抓取网页后识别产品,进行价格比较

转载 作者:行者123 更新时间:2023-11-30 09:11:25 24 4
gpt4 key购买 nike

我目前正在开发一个价格比较网站,我会抓取一些电子商务网站并从它们的 HTML 页面中提取一些数据,例如价格、标题、元数据等。现在我需要两个确定是否从不同网站抓取的两个产品实际上是相同的,并为它们分配一个共同的标签。
例如,假设站点 1 将以下字符串作为产品标题:
智能手机三星 Galaxy S6 4​​G 32GB
站点 2 具有以下字符串作为同一产品的标题:
三星 Galaxy S6 白色

如何识别这两种产品是否实际上是同一产品,我想在我的网站中将其标记为“Samsung Galaxy S6”?我考虑过使用一些机器学习技术,例如分类或聚类。然而,分类可能需要大量已经格式良好的产品标签(加上经常更新)来充当可能的类别,例如类“Samsung Galaxy S6”,有这样的东西吗?而且对于如此大量的类,它可能不可行。

我使用 Apache Nutch 进行爬网,使用 Solr 进行索引和搜索。如果有任何特定的库或工具,这将非常有帮助,但我的问题不是专门针对这些的,我将非常乐意阅读任何建议。

谢谢

最佳答案

我为我的项目做了类似的事情,我们用他们的 ID 来标记人名,所以基本上同一个人可以将他们的名字列为全名或缩写,或仅名等,然后我们将其标记为相同的 ID。

因此,对于您的情况,这基本上需要为您的产品构建倒排索引,然后扫描标题字段中的产品名称并将其标记到特定的产品 ID。这样,所有三星 Galaxy S6 都会映射到同一产品。

这不需要执行任何学习,您只需要拥有数据库来从中提取所有独特的产品,并在产品数据库发生变化时不断更新索引。

所有这些都可以通过为 solr 编写更新处理器在索引时完成。

将其全部放在这里的实现有点复杂,因此我只是概述了可以帮助您的基本想法。

关于solr - 抓取网页后识别产品,进行价格比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35808547/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com