gpt4 book ai didi

打开精炼 : key collision-fingerprint clustering + diacritics

转载 作者:行者123 更新时间:2023-12-04 02:02:09 26 4
gpt4 key购买 nike

我认为 openrefine 在“key collision-fingerprint”聚类中管理变音符号的方式存在一个错误(或一个非常令人惊讶的功能......):

第 1 行:école第 2 行:école école ecole

-> 聚类 -> 0 个簇

同样的问题

第 1 行:école第 2 行:école école ecole-> 0 个簇

但这种情况效果很好:

第 1 行:ecole第 2 行:école école école-> 1 个集群

最佳答案

并不奇怪。指纹聚类只是对每个单元格应用fingerprint()函数,然后逐个比较它们的等价性。现在这是您提到的三种情况下 fingerprint 的结果:

1

row value               value.fingerprint()
1. école ecole
2. école école ecole ecole ecole

2

row value               value.fingerprint()
1. école ecole
2. école école ecole ecole ecole

3

row value               value.fingerprint()
1. ecole ecole
2. école école école ecole

为什么在第三种情况下会出现这种差异?因为指纹算法实际上执行以下操作,in a strict order .

<强>1。删除前导和尾随空格

"école école école "-> "école école école"

<强>2。将所有字符更改为小写形式

"éCole école école"-> "école école école"

<强>3。删除所有标点符号和控制字符

"école-école, école"-> "école école école"

<强>4。将字符串拆分为以空格分隔的标记

"école école école"-> ["école", "école", "école"]

<强>5。对标记进行排序并删除重复项

["école", "école", "école"] -> ["école"]

6.将 token 重新组合在一起

["école"] -> "école"

7.将扩展的西方字符规范化为其 ASCII 表示

“学院”->“学院”

有人可能会想,操作 7 以前是不是不应该做的。但是在您的示例中,如果存在错误,则错误可能在第三种情况下。字符串“école”与字符串“ecole école école”非常不同,我认为不应将它们合并。给定名称“John-John”都不等同于“John”。

编辑:One of the developpers agrees with you .

关于打开精炼 : key collision-fingerprint clustering + diacritics,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46431278/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com