作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
>> tokenize.word_tokenize("I work with C-6ren">
我正在使用 nltk.word_tokenize
用于标记一些包含编程语言、框架等的句子,这些句子被错误标记。
例如:
>>> tokenize.word_tokenize("I work with C#.")
['I', 'work', 'with', 'C', '#', '.']
最佳答案
Multi Word Expression Tokenizer应该是你需要的。
您将异常列表添加为元组并将已标记化的句子传递给它:
tokenizer = nltk.tokenize.MWETokenizer()
tokenizer.add_mwe(('C', '#'))
tokenizer.add_mwe(('F', '#'))
tokenizer.tokenize(['I', 'work', 'with', 'C', '#', '.'])
['I', 'work', 'with', 'C_#', '.']
tokenizer.tokenize(['I', 'work', 'with', 'F', '#', '.'])
['I', 'work', 'with', 'F_#', '.']
关于nltk - 如何为 nltk.word_tokenize 定义特殊的 "untokenizable"单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45618528/
我正在使用 nltk.word_tokenize用于标记一些包含编程语言、框架等的句子,这些句子被错误标记。 例如: >>> tokenize.word_tokenize("I work with C
我是一名优秀的程序员,十分优秀!