gpt4 book ai didi

python - 如何标记没有空格分隔符的连续单词?

转载 作者:太空狗 更新时间:2023-10-29 21:53:14 25 4
gpt4 key购买 nike

我将 Python 与 nltk 结合使用。我需要处理一些没有空格的英文文本,但是 nltk 中的 word_tokenize 函数无法处理这样的问题。那么如何在没有任何空格的情况下标记文本。 Python 有什么工具吗?

最佳答案

我不知道有这样的工具,但你的问题的解决方案取决于语言。

对于土耳其语,您可以逐个字母扫描输入文本并将字母累积成一个词。当您确定累积的单词形成字典中的有效单词时,您将其保存为单独的标记,删除用于累积新单词的缓冲区并继续该过程。

您可以针对英语尝试这样做,但我假设您可能会发现某个单词的结尾可能是某个字典单词的开头,这会给您带来一些问题。

关于python - 如何标记没有空格分隔符的连续单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17637175/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com