gpt4 book ai didi

python - 获取数据框中拼写错误的单词的字典

转载 作者:行者123 更新时间:2023-11-30 09:41:57 25 4
gpt4 key购买 nike

正在研究情感分析问题。尝试使用自动更正,但这需要大量的计算能力,但由于语料库的大小,我无法访问这些计算能力。因此,想出了一种不同的方法来解决问题,即创建一个 {key = 'in Correct', value = ' Correct'} 字典,然后手动更正所有单词。

问题是我应该如何获取字典中拼写错误单词的字典。是this link与我的问题的解决方案相同吗?(我应该查找 OOV 单词而不是拼写错误的单词吗?)

如果没有,请建议一些更好的方法。

用于自动更正的代码:

!pip install autocorrect
from autocorrect import spell
train['text'] = [' '.join([spell(i) for i in x.split()]) for x in train['text']]

最佳答案

你能正确拼写一个单词多少次?只有 1 次。

现在,你能错误地拼写一个单词多少次?我应该说无限。

这回答了您的问题:

Rather than misspelled words should I look for OOV words?

  • 当然,特别是如果您的拼写错误不是新词或经常重复的常用错误拼写。

现在,如果拼写错误,您如何获得这些功能呢?一种方法是使用“Levenstein 距离”(或最小编辑距离),它将拼写错误的单词与您的单词词典进行比较,检查它与您的任何单词之间的距离是否很小。这可能就是自动更正包背后的原因。您可以在这个link中查看更多有关它的信息。 .

因此,简而言之,您可能必须丢弃 OOV 单词或在它们上使用一些计算资源,因为计算机无法在不进行一些计算的情况下“猜测”。

关于python - 获取数据框中拼写错误的单词的字典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57457568/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com