gpt4 book ai didi

openrefine - 谷歌优化 : merge two data sets on similar-but-different column?

转载 作者:行者123 更新时间:2023-12-02 05:10:14 26 4
gpt4 key购买 nike

我有两个数据集,它们的公共(public)列名称略有不同。

数据集 A:

Name,Number
Hartlepool UA,306
Tyne and Wear Met County,683

数据集 B:

Name,Number
Hartlepool,366
Tyne and Wear,353

我认为 Google Refine/Open Refine 旨在以模糊的方式帮助协调这种困惑的数据,但是 it seems not .

有没有什么工具可以让我用模糊的方式匹配这些,而无需编写代码?如果需要,我可以很容易地编写代码,但令我惊讶的是,Google Refine 似乎并没有像我想象的那样做。

最佳答案

你也可以:

  1. 去除所有标点符号并将地址单元格视为一个大长字符串,如果它不在一个单元格中,则需要使用一些 join()。一旦它是单个单元格中的大字符串,然后使用 Facet -> Custom Text Facet -> fingerprint() GREL 函数。

    fingerprint(value)
    value.fingerprint()
  2. 使用那个又大又长的字符串,您还可以使用聚类或自定义文本方面执行模糊分析

    value.ngramFingerprint(2)

对于您的困惑数据类型,这些可能仍然不是最佳解决方案……地址。特别是,如果您认为您的 2 个示例是“相同的”,但事实并非如此。因此,您需要采用 Tom 建议的方法。

但是如果你真的想说......嘿,这两个地址中的大部分单词和数字都是相同的,我认为它们在我的上下文中非常接近,并且想以某种方式衡量2 个字符串指纹...然后上面的 2 个步骤应该让你指向正确的方向。

关于openrefine - 谷歌优化 : merge two data sets on similar-but-different column?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15597315/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com