gpt4 book ai didi

python-3.x - 使用文本处理对数据进行分类

转载 作者:行者123 更新时间:2023-11-30 09:16:02 26 4
gpt4 key购买 nike

我有一个数据集,我需要使用其中的单位对数据进行分类,例如

UNITS        PRICE
pieces 100
piece 70
peice 50
1 pc 50
pics 60
single piece 50

假设:棋子和棋子可以被认为是相同的

这里所有的单元必须指向同一个词根(piece)。我确实在Python中应用了nltk库中的词干提取词形还原,但它没有给出期望的结果。

将词干应用于一些示例,

from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
stemmer= PorterStemmer()
input_str=['pieces', 'piece', 'peice', '1 pc', 'pics', 'single Peice']
for word in input_str:
print(stemmer.stem(word), end=' ')

它给出的输出是,

piec piec peic 1 pc pic singl peic 

有什么方法可以将看起来相似的单词视为相同吗?

我不知道该如何处理这个问题。有人可以提出建议吗?

最佳答案

正如您所提到的,词干或词形还原并不能纠正拼写。

自动更正拼写的选项很少,但请注意,这些选项在某些情况下可能会失败。如果您需要防呆纠正,可能需要手动干预。

  1. pySpellChecker
  2. autocorrect

有时,您可能需要更正错位的空格,在这种情况下您可以使用 word segment

关于python-3.x - 使用文本处理对数据进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55910392/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com