gpt4 book ai didi

data-mining - DBSCAN中的参数估计

转载 作者:行者123 更新时间:2023-12-04 11:40:22 26 4
gpt4 key购买 nike

我需要根据它们具有不同介词的分布找到自然出现的名词类别(例如实体,工具,时间,地点等)。我尝试使用k-means聚类,但效果不佳,效果不佳,在我要查找的类上有很多重叠(可能是由于类的非球形形状和k-means中的随机初始化) )。

我现在正在使用DBSCAN,但是在这种聚类算法中我很难理解epsilon值和最小点值。我可以使用随机值还是需要计算它们。任何人都可以帮忙。特别是对于epsilon,如果需要的话,至少如何计算它。

最佳答案

使用您的域知识选择参数。 Epsilon是半径。您可以将其视为最小群集大小。

显然,随机值不能很好地工作。作为试探法,您可以尝试看一下k距离图;但它也不是自动的。

两种方法中的第一件事都是为数据选择一个好的距离函数。并执行适当的归一化。

至于“minPts”,它再次取决于您的数据和需求。一个用户可能想要与另一个用户截然不同的值。当然,minPts和Epsilon是耦合的。如果将ε加倍,则大约需要将minPts增加2 ^ d(对于欧几里得距离,因为这是超球体体积增加的方式!)

如果要使用大量细小且精细的群集,请选择一个较低的分钟数。如果您想要更大和更少的群集(和更多的噪音),请使用更大的分钟数。如果根本不需要任何群集,请选择大于数据集大小的分钟...

关于data-mining - DBSCAN中的参数估计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15050389/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com