gpt4 book ai didi

python - 如何在程序中解析同一产品(手机)的两个略有不同的名称?

转载 作者:行者123 更新时间:2023-11-28 22:56:41 25 4
gpt4 key购买 nike

我正在开发一个网络应用程序,我从多个网站收集有关手机的数据。问题是网站使用的手机命名略有不同。例如,网站为这两款手机使用以下名称变体:

HTC One X+(黑色); HTC One X+ 黑色; HTC One X Plus; HTC One X Plus,黑色

三星 Galaxy S3(卵石蓝,16GB);三星 Galaxy S III(蓝色);三星盖乐世 S3 I9300 16GB 卵石蓝;三星 I9300 盖乐世 S III (16 GB);三星 Galaxy S3 (I9300),卵石蓝

由于我使用爬虫从这些网站读取这些数据,因此我需要我的程序将所有这些不同的字符串解析为同一产品。

有什么想法吗?如果重要的话,我正在使用 python。

最佳答案

您可以为此使用不同的方法(并且为了最有效地混合使用它们):

  1. 您可以忽略括号中的所有内容。
  2. 定义您自动删除的词,如“黑色”、“蓝色”或“白色”。
  3. 通过 Levenshtein 距离比较名称,并使用此距离进行聚类。
  4. 表面相似性(感谢 mbatchkarov)

关于python - 如何在程序中解析同一产品(手机)的两个略有不同的名称?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15189056/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com