gpt4 book ai didi

python - 修改 python nltk.word_tokenize 以排除 "#"作为分隔符

转载 作者:行者123 更新时间:2023-12-05 00:49:49 28 4
gpt4 key购买 nike

我正在使用 Python 的 NLTK 库来标记我的句子。

如果我的代码是

text = "C# billion dollars; we don't own an ounce C++"
print nltk.word_tokenize(text)

我把这个作为我的输出

['C', '#', 'billion', 'dollars', ';', 'we', 'do', "n't", 'own', 'an', 'ounce', 'C++']

符号 ;.# 被视为分隔符。有没有办法从分隔符集中删除 # ,例如 + 不是分隔符,因此 C++ 显示为单个标记?

我希望我的输出是

['C#', 'billion', 'dollars', ';', 'we', 'do', "n't", 'own', 'an', 'ounce', 'C++']

我希望 C# 被视为一个标记。

最佳答案

在处理多词标记化时,另一种方法是使用 NLTK Multi-Word Expression tokenizer 重新标记提取的标记。 :

mwtokenizer = nltk.MWETokenizer(separator='')
mwtokenizer.add_mwe(('c', '#'))
mwtokenizer.tokenize(tokens)

关于python - 修改 python nltk.word_tokenize 以排除 "#"作为分隔符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35674103/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com