- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试寻找可以用于我的工作的 minhash 开源实现。
我需要的功能非常简单,给定一个集合作为输入,实现应该返回它的 minhash。
首选 Python 或 C 实现,以防万一我需要破解它才能为我工作。
任何指针都会有很大帮助。
问候。
最佳答案
您应该按顺序查看以下开源库。所有这些都是用 Python 编写的,并展示了如何使用 LSH/MinHash 计算文档相似度:
lsh
LSHHDC : Locality-Sensitive Hashing based High Dimensional Clustering
MinHash
关于python - 你能推荐一个好的 minhash 实现吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14533420/
我熟悉SimHash和MinHash的LSH(局部敏感哈希)技术。 SimHash对实际值数据使用余弦相似度。 MinHash计算二进制矢量上的相似度相似度。但是我无法决定哪个更适合使用。 我正在为网
我在实现 minhashing 时遇到问题。在纸上和阅读中我理解这个概念,但我的问题是排列“技巧”。代替置换集合矩阵和值的实现建议是:“选择 k(例如 100)个独立的哈希函数”,然后算法说: for
我目前正在使用 MinHashing 技术进行文档聚类。但是,我没有得到想要的结果,因为 MinHash 是对 Jaccard similarity 的粗略估计,它不符合我的要求。 这是我的场景: 我
我正在尝试寻找可以用于我的工作的 minhash 开源实现。 我需要的功能非常简单,给定一个集合作为输入,实现应该返回它的 minhash。 首选 Python 或 C 实现,以防万一我需要破解它才能
假设我有五组要聚类。我了解此处描述的 SimHashing 技术: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhs
我正在用 Java 编写一个 minhashing 算法,它要求我生成任意数量的随机哈希函数(在我的例子中是 240 个哈希函数),并通过它运行任意数量的整数(目前是 2000 个)。 为了做到这一点
我正在尝试了解 LSH 的实现。我在 stackoverflow 上找到了这个 Can you suggest a good minhash implementation? 我尝试遵循 Duhaime
我在文档及其带状疱疹上使用了 minhash,以从这些文档生成签名矩阵。我已验证签名矩阵在比较已知相似文档(例如,两篇关于同一运动队的两篇文章或两篇关于同一世界赛事的文章)的杰卡德距离时给出了正确的读
我正在使用 Apache Spark ML LSH 的 approxSimilarityJoin 方法加入 2 个数据集,但我看到了一些奇怪的行为。 在(内部)连接之后,数据集有点偏斜,但是每次完成一
这篇文章很长,对此我深表歉意。 我一直在尝试实现chapter 3中讨论的Minhash LSH算法。通过使用 Spark (Java)。我正在使用这样的玩具问题: +--------+------+
我正在寻找一个 node.js/Javascript 模块,它将 minhash 算法应用于字符串或更大的文本,并为我返回该文本的“标识”或“特征”字节串或十六进制字符串。如果我将该算法应用于另一个相
我在用 : hadoop-1.2.1和mahout-distribution-0.8 当我尝试使用以下命令运行HASHMIN方法时: $MAHOUT_HOME/bin/mahout org.apach
我是一名优秀的程序员,十分优秀!