gpt4 book ai didi

nlp - 匹配包含具有排列的单词的行

转载 作者:行者123 更新时间:2023-12-01 01:37:47 25 4
gpt4 key购买 nike

假设您有一个包含 varchar 列的大表。

您将如何匹配 varchar col 中包含单词“preferred”的行,但数据有点嘈杂并且偶尔包含拼写错误,例如:

['$2.10 Cumulative Convertible Preffered Stock, $25 par value',
'5.95% Preferres Stock',
'Class A Preffered',
'Series A Peferred Shares',
'Series A Perferred Shares',
'Series A Prefered Stock',
'Series A Preffered Stock',
'Perfered',
'Preffered C']

上面拼写错误中“首选”一词的排列似乎显示出 family resemblance但它们的共同点很少。请注意,拆分每个单词并运行 levenshtein每一行的每一个字都将是非常昂贵的。

更新:

还有其他几个这样的例子,例如带有“限制”:
['Resticted Stock Plan',
'resticted securities',
'Ristricted Common Stock',
'Common stock (restrticted, subject to vesting)',
'Common Stock (Retricted)',
'Restircted Stock Award',
'Restriced Common Stock',]

最佳答案

您能否尝试在表格的小样本上对其进行训练以查找可能的拼写错误(使用 split + Levenshtein),然后在整个表格中使用生成的单词列表?

关于nlp - 匹配包含具有排列的单词的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/732091/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com