>> tokenize.word_tokenize("I work with C-6ren">
gpt4 book ai didi

nltk - 如何为 nltk.word_tokenize 定义特殊的 "untokenizable"单词

转载 作者:行者123 更新时间:2023-12-04 12:51:42 28 4
gpt4 key购买 nike

我正在使用 nltk.word_tokenize用于标记一些包含编程语言、框架等的句子,这些句子被错误标记。

例如:

>>> tokenize.word_tokenize("I work with C#.")
['I', 'work', 'with', 'C', '#', '.']

有没有办法将这样的“异常(exception)”列表输入到标记器中?我已经编制了一份我不想拆分的所有内容(语言等)的列表。

最佳答案

Multi Word Expression Tokenizer应该是你需要的。

您将异常列表添加为元组并将已标记化的句子传递给它:

tokenizer = nltk.tokenize.MWETokenizer()
tokenizer.add_mwe(('C', '#'))
tokenizer.add_mwe(('F', '#'))
tokenizer.tokenize(['I', 'work', 'with', 'C', '#', '.'])
['I', 'work', 'with', 'C_#', '.']
tokenizer.tokenize(['I', 'work', 'with', 'F', '#', '.'])
['I', 'work', 'with', 'F_#', '.']

关于nltk - 如何为 nltk.word_tokenize 定义特殊的 "untokenizable"单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45618528/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com