gpt4 book ai didi

python - 用于产品数据分析的最佳 Python 聚类库

转载 作者:太空狗 更新时间:2023-10-29 21:35:35 25 4
gpt4 key购买 nike

<分区>

我收集了各种产品的字母数字产品代码。类似产品的代码没有内在相似性,即产品代码“A123”可能表示“Harry Potter Volume 1 DVD”,而“B123”可能表示“Kellogs Corn Flakes”。我实际上也没有产品的描述或标识。我所拥有的只是这段代码的“所有者”。因此,我的数据(以非正常方式)看起来像这样:

所有者 1:产品代码 A123、B124、W555、M221、M556、127、102

所有者 2:产品代码 D103,Z552,K112,L3254,223,112

所有者 3:产品代码 G123

....

我有大量(即 TB 级)此类数据。

我假设所有者 - 对于大多数人 - 拥有不确定数量的类似产品组 - 即所有者可能只有 2 组 - 所有 DVD 和哈利波特的书籍,以及“铁娘子”的集合“CD。我想分析这些数据并确定产品代码之间的距离函数,这样我就可以开始假设产品代码彼此“有多接近”,并将产品代码聚类(这样我也可以确定所有者有多少组)。我已经开始对文本聚类算法进行一些研究,但有很多算法可供选择,我不确定哪种算法最适合这种情况。

有人能指出我最适合使用的基于 python 的聚类函数/库吗?!

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com