gpt4 book ai didi

python - 为什么要标记/预处理单词以进行语言分析?

转载 作者:太空宇宙 更新时间:2023-11-04 00:09:54 25 4
gpt4 key购买 nike

我目前正在开发一个 Python 推文分析器,其中一部分是计算常用词。我看过许多关于如何执行此操作的教程,并且大多数教程在进一步分析之前对文本字符串进行标记。

当然,避免这个预处理阶段并直接从字符串中计算单词会更容易 - 那么为什么要这样做呢?

最佳答案

也许我说得太对了,但标记化不只是指根据定界符拆分输入流(在本例中为字符)以接收任何被视为“标记”的内容吗?

您的标记可以是任意的:您可以在单词级别执行分析,其中您的标记是单词,分隔符是任何空格或标点符号。您分析 n-gram 的可能性也一样,其中您的标记对应于一组单词并完成定界,例如通过滑动窗口。

简而言之,为了分析文本流中的单词,您需要进行分词以接收“原始”单词以进行操作。

然而,标记化之后通常会进行词干提取和词形还原以减少噪音。在考虑情绪分析时,这一点变得非常清楚:如果您看到 tokens happyhappilyhappiness,请执行您想分别对待它们,还是将它们组合成 happy 的三个实例以更好地传达更强烈的“快乐”概念?

关于python - 为什么要标记/预处理单词以进行语言分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52916729/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com