- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 SO 上发现了上一个问题:N-grams: Explanation + 2 applications . OP给出了这个例子并询问它是否正确:
Sentence: "I live in NY."
word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"
When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:
word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, ...]
最佳答案
N-gram 只是您可以在源文本中找到的相邻单词或长度为 n 的字母的所有组合。例如,给定单词 fox
,所有 2-gram(或“bigrams”)都是 fo
和 ox
.您还可以计算单词边界——这会将 2-gram 列表扩展为 #f
, fo
, ox
, 和 x#
,其中 #
表示词边界。
你可以在单词级别上做同样的事情。例如,hello, world!
text 包含以下词级二元组:# hello
, hello world
, world #
.
n-grams 的基本观点是它们从统计的角度捕捉语言结构,比如什么字母或单词可能跟在给定的字母或单词之后。 n-gram 越长(n 越高),你需要处理的上下文就越多。最佳长度实际上取决于应用程序——如果您的 n-gram 太短,您可能无法捕捉到重要的差异。另一方面,如果它们太长,您可能无法捕捉到“常识”,而只能坚持特定情况。
关于sentiment-analysis - 究竟什么是 n Gram?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18193253/
Feel free to skip straight to TL/DR if you're not interested in details of the question 简短的序言: 我最近决定
我一直在阅读 A Tour of Go学习Go-Lang到目前为止一切顺利。 我目前在 Struct Fields类(class),这是右侧的示例代码: package main import "fm
Last time I got confused顺便说一下PowerShell急切地展开集合,基思总结了它的启发式如下: Putting the results (an array) within a
我是一名优秀的程序员,十分优秀!