gpt4 book ai didi

excel - 对具有拼写错误、间距差异等的相似字符串进行分组

转载 作者:行者123 更新时间:2023-12-04 20:26:16 25 4
gpt4 key购买 nike

我有一个包含大约 100 万个雇主名称的数据集。这些名称来自自由格式的文本字段,因此它们包括拼写错误和输入方式的变化(例如“Amazon”..“Amzaon”..“Amazon.com”..“Amazon Web Services”..“AWS ”)。

我想要么 A)对这 100 万个雇主进行分组,以便我对数据集中有多少独特的雇主有一个准确的了解,要么 B)能够找到任何给定雇主的所有变体。

到目前为止,我一直在使用 Tableau 中的数据,然后过滤“雇主名称”并搜索我能想到的所有名称变体。但这很乏味,我很确定我会遗漏很多。

我也使用了 excel 的模糊加载项,但它在拼写错误、特殊字符方面效果不佳……

最佳答案

Tableau 不适合直接进行这种开箱即用的分析,我强烈建议您在尝试围绕它构建工作簿之前对您的数据进行一些预处理。

正如另一位评论者所说,您可以考虑使用 Tableau Prep Builder 对您的数据集进行一次性转换,但如果您想自动化此过程,则需要为您拥有的任何 Tableau Server 安装添加功能额外费用。

如果您熟悉 Python 或 R(并且您的组织支持 Tableau Server 与这些服务之间的集成),您可以考虑构建一个脚本来实时运行转换,但它可能不会太高效.

关于excel - 对具有拼写错误、间距差异等的相似字符串进行分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59977734/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com