gpt4 book ai didi

sentiment-analysis - 究竟什么是 n Gram?

转载 作者:行者123 更新时间:2023-12-03 10:44:42 27 4
gpt4 key购买 nike

我在 SO 上发现了上一个问题:N-grams: Explanation + 2 applications . OP给出了这个例子并询问它是否正确:

Sentence: "I live in NY."

word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"

When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:

word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, ...]

答案部分中的某人确认这是正确的,但不幸的是,除此之外我有点迷茫,因为我没有完全理解所说的其他一切!我正在使用 LingPipe 并遵循一个教程,该教程指出我应该选择 7 到 12 之间的值 - 但没有说明原因。

什么是好的 nGram 值?在使用 LingPipe 等工具时应该如何考虑?

编辑:这是教程: http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html

最佳答案

N-gram 只是您可以在源文本中找到的相邻单词或长度为 n 的字母的所有组合。例如,给定单词 fox ,所有 2-gram(或“bigrams”)都是 foox .您还可以计算单词边界——这会将 2-gram 列表扩展为 #f , fo , ox , 和 x# ,其中 #表示词边界。

你可以在单词级别上做同样的事情。例如,hello, world! text 包含以下词级二元组:# hello , hello world , world # .

n-grams 的基本观点是它们从统计的角度捕捉语言结构,比如什么字母或单词可能跟在给定的字母或单词之后。 n-gram 越长(n 越高),你需要处理的上下文就越多。最佳长度实际上取决于应用程序——如果您的 n-gram 太短,您可能无法捕捉到重要的差异。另一方面,如果它们太长,您可能无法捕捉到“常识”,而只能坚持特定情况。

关于sentiment-analysis - 究竟什么是 n Gram?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18193253/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com