- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我认为 openrefine 在“key collision-fingerprint”聚类中管理变音符号的方式存在一个错误(或一个非常令人惊讶的功能......):
第 1 行:école第 2 行:école école ecole
-> 聚类 -> 0 个簇
同样的问题
第 1 行:école第 2 行:école école ecole-> 0 个簇
但这种情况效果很好:
第 1 行:ecole第 2 行:école école école-> 1 个集群
最佳答案
并不奇怪。指纹聚类只是对每个单元格应用fingerprint()
函数,然后逐个比较它们的等价性。现在这是您提到的三种情况下 fingerprint
的结果:
1
row value value.fingerprint()
1. école ecole
2. école école ecole ecole ecole
2
row value value.fingerprint()
1. école ecole
2. école école ecole ecole ecole
3
row value value.fingerprint()
1. ecole ecole
2. école école école ecole
为什么在第三种情况下会出现这种差异?因为指纹算法实际上执行以下操作,in a strict order .
<强>1。删除前导和尾随空格
"école école école "-> "école école école"
<强>2。将所有字符更改为小写形式
"éCole école école"-> "école école école"
<强>3。删除所有标点符号和控制字符
"école-école, école"-> "école école école"
<强>4。将字符串拆分为以空格分隔的标记
"école école école"-> ["école", "école", "école"]
<强>5。对标记进行排序并删除重复项
["école", "école", "école"] -> ["école"]
6.将 token 重新组合在一起
["école"] -> "école"
7.将扩展的西方字符规范化为其 ASCII 表示
“学院”->“学院”
有人可能会想,操作 7 以前是不是不应该做的。但是在您的示例中,如果存在错误,则错误可能在第三种情况下。字符串“école”与字符串“ecole école école”非常不同,我认为不应将它们合并。给定名称“John-John”都不等同于“John”。
关于打开精炼 : key collision-fingerprint clustering + diacritics,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46431278/
我正在构建一个简单的产品过滤器,并将规范分为不同类型。 我希望我的逻辑是这样的: 如果选择 2 个规范,每个规范都来自不同类型,则产品应与两个选择相匹配。 如果选择 3 种规范,其中 2 种来自相同类
我正在尝试使用 OpenCV 和 Haar 级联制作手部检测程序。它工作得很好,但它非常生涩。所以我在问自己,这是否是 haar 文件的问题,它太“便宜”了,或者是否有一种方法可以通过使用轮廓或特征检
所有很棒的答案!但这个问题值得细化...... 我有以下示例 XML ... .... ...以及以下 XPath 查
我正在尝试将多项式拟合到我的数据,例如 import scipy as sp x = [1,6,9,17,23,28] y = [6.1, 7.52324, 5.71, 5.86105, 6.3, 5
我有一个(swift)类,它有一个指向委托(delegate)的弱指针,如下所示: import UIKit @objc public protocol DRSlidingPanelViewContr
我是一名优秀的程序员,十分优秀!