gpt4 book ai didi

parsing - 比较来自不同网络的数据馈送(联盟营销)

转载 作者:行者123 更新时间:2023-12-04 06:56:05 27 4
gpt4 key购买 nike

我正在努力将附属销售整合到几个现有的网站中。我们正在使用一些通过不同网络(cj、shareasale、linkshare、avantlink)工作的商家。

现在我的观察是,所有这些网络都提供不同格式的数据馈送。但这不是什么大问题。我主要担心的是商家在同一产品上使用不同的标题。我不想遇到这些情况:

a) 来自 N 个商家的两个相同产品的列表(如果标题有点不同)

b) 来自商家的 N 个不同产品的一个列表(如果我们不使用严格的比较算法)

我们希望尽可能使一切自动化,希望避免运营商一直扫描有问题的列表。

这个问题一般是怎么处理的?

最佳答案

我们在尝试从多个商家提要中折叠产品时遇到了类似的问题。我们所做的是根据他们的品牌(或制造商)+ sku 组合来折叠产品。

我们的数据非常困惑,所以我们必须做一些工作来规范品牌和 sku,这样产品才能很好地崩溃。我们有一个我们关心的品牌列表,并做了一些工作来将品牌从商家信息流映射到我们的品牌中。例如如果我们的系统中有“ACME”品牌,我们可能会将以下内容映射到该品牌:

A.C.M.E => ACME
ACME Inc. => ACME
Acme Incorporated => ACME

对于 skus,我们通常只是删除任何非字母数字字符以进行匹配。例如以下所有内容都将映射到相同的 sku:
abc-123 => abc123
abc.123 => abc123
abc 123 => abc123
ab.c1.23 => abc123

所以如果我们看到品牌“ACME Inc.”一个提要中的 sku“abc-123”将与另一个提要中的品牌“A.C.M.E”和 sku“abc 123”一起崩溃。

作为折叠过程的一部分,我们最终会为每个折叠部分提供多个名称/图像/描述/类别/等...,并且需要选择“最佳”一个以在网站上显示。

这是我们如何处理它的非常高级别的概述。

关于parsing - 比较来自不同网络的数据馈送(联盟营销),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2554882/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com