gpt4 book ai didi

python - 布朗聚类算法输出是什么意思?

转载 作者:IT老高 更新时间:2023-10-28 21:01:32 26 4
gpt4 key购买 nike

我已经从 https://github.com/percyliang/brown-cluster 运行了 brown-clustering 算法。还有一个python实现https://github.com/mheilman/tan-clustering .他们都为每个唯一 token 提供某种二进制和另一个整数。例如:

0        the        6
10 chased 3
110 dog 2
1110 mouse 2
1111 cat 2

二进制和整数是什么意思?

从第一个 link ,二进制文件称为 bit-string,见 http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/

但是我如何从输出中得知 dog and mouse and cat 是一个集群,而 the andchased 不在同一个集群中呢?

最佳答案

如果我理解正确,该算法会为您提供一棵树,您需要在某个级别截断它以获得集群。如果是这些位字符串,您应该只取第一个 L 个字符。

例如,在第二个字符处切割会给你两个簇

10           chased     

11 dog
11 mouse
11 cat

在你得到第三个字符时

110           dog        

111 mouse
111 cat

但切割策略是不同的主题。

关于python - 布朗聚类算法输出是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20998832/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com