gpt4 book ai didi

nlp - 字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

转载 作者:行者123 更新时间:2023-12-04 09:00:02 38 4
gpt4 key购买 nike

至少可以考虑 3 种类型的 n-gram 来表示文本文档:

  • 字节级 n-gram
  • 字符级 n-gram
  • 词级 n-gram

  • 我不清楚哪一个应该用于给定的任务(聚类、分类等)。我在某处读到,当文本包含拼写错误时,字符级 n-gram 比单词级 n-gram 更受欢迎,因此“玛丽爱狗”仍然类似于“玛丽 lpves 狗”。

    在选择“正确”表示时是否还有其他标准需要考虑?

    最佳答案

    评估 .选择表示的标准是任何有效的。

    实际上,字符级别(!= 字节,除非您只关心英语)可能是最常见的表示形式,因为它对拼写差异(如果您查看历史记录,则不一定是错误;拼写更改)具有强大的鲁棒性。因此,对于拼写更正的目的,这很有效。

    另一方面,Google Books n-gram阅读者在他们的书籍语料库中使用词级 n-gram。因为他们不想分析拼写,而是随着时间的推移术语使用情况;例如“育儿”,其中单个词不如它们的组合有趣。这被证明在机器翻译中非常有用,通常被称为“冰箱磁铁模型”。

    如果您不处理国际语言,字节也可能很有意义。

    关于nlp - 字节 vs 字符 vs 单词 - n-gram 的粒度是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21656861/

    38 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com