gpt4 book ai didi

nlp - 什么时候n语法(n> 3)相对于二元语法或三元语法重要?

转载 作者:行者123 更新时间:2023-12-04 03:45:32 25 4
gpt4 key购买 nike

考虑到计算中的计算开销,我只是想知道n-gram(n> 3)(及其出现频率)的用途是什么。有没有仅使用二元语法或三字语法的应用程序?

如果是这样,n-gram提取的最新技术是什么?有什么建议么?我知道以下几点:

  • A new method of n-gram statistics for large number of n and automaticextraction of words and phrases from large text data of Japanese
  • Using suffix arrays to compute term frequency and document frequencyfor all substrings in a corpus
  • Word association norms, mutual information, and lexicography
  • Retrieving collocations from text: Xtract
  • 最佳答案

    我对这里列出的许多标记不熟悉,但是n-gram(抽象概念)通常与统计模型有关。结果,这是一些不仅仅限于二元组和三元组的应用程序:

  • 压缩算法(尤其是PPM变量),其中克的长度取决于可用于提供特定上下文的数据量。
  • 近似字符串匹配(例如用于基因序列匹配的BLAST)
  • 预测模型(例如名称生成器)
  • 语音识别(音素克用于帮助评估当前音素进行识别的可能性)

    这些是我脑海中无法承受的,但是列出的on Wikipedia还有更多。

    至于“最先进的” n-gram提取,没有任何想法。 N-gram“提取”是一种在不影响n-gram样式建模的同时,加快某些过程的自发尝试。简而言之,“最新技术”取决于您要执行的操作。如果要查看模糊匹配或模糊分组,则取决于要匹配/分组的数据类型。 (例如,街道地址在模糊匹配方面与名字将大不相同。)

  • 关于nlp - 什么时候n语法(n> 3)相对于二元语法或三元语法重要?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10286058/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com