gpt4 book ai didi

python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词?

转载 作者:行者123 更新时间:2023-12-01 21:43:09 26 4
gpt4 key购买 nike

list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))

给出结果:

['you', 'he', 'she', 'it', 'we', 'you', 'they']

这正常吗?它会跳过任何单词吗?我应该使用另一个分词器吗?

奖金问题:“deacc=True”参数是什么意思?

最佳答案

正如@user2357112-supports-monica 在他们的评论中提到的,这是 simple_preprocess() 设计行为的一部分,根据其 documentation , 丢弃任何短于 min_len=2 个字符的标记。

您的“奖励问题”也在同一文档中得到了回答:

  • deacc (bool, optional) – Remove accent marks from tokens using deaccent()?

(deaccent() 函数是另一个实用函数,在链接中有记录,它的作用与名称和文档所建议的完全相同:从字母中删除重音符号,例如,'é' 变成了 'e'。)

关于python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61055072/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com