gpt4 book ai didi

python - nltk 标记化和收缩

转载 作者:太空狗 更新时间:2023-10-29 18:05:00 30 4
gpt4 key购买 nike

我正在使用 nltk 对文本进行标记,只是将句子提供给 wordpunct_tokenizer。这会拆分收缩(例如,'don't' 到 'don' +"' "+'t'),但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化,因此除了简单的标记化之外,我还需要更深入地研究 nltk 标记化模块。

我猜这很常见,我希望得到其他人的反馈,他们之前可能不得不处理过该特定问题。

编辑:

是的,我知道这是一个笼统的、乱七八糟的问题

此外,作为 nlp 的新手,我是否需要担心收缩?

编辑:

SExprTokenizer 或 TreeBankWordTokenizer 似乎可以满足我现在的需求。

最佳答案

您使用哪种分词器实际上取决于您接下来要做什么。正如 inspectorG4dget 所说,一些词性标注器处理拆分收缩,在这种情况下,拆分是一件好事。但也许那不是你想要的。要确定哪个分词器最好,请考虑下一步需要什么,然后将您的文本提交至 http://text-processing.com/demo/tokenize/查看每个 NLTK 分词器的行为方式。

关于python - nltk 标记化和收缩,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11351290/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com