作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在计算两个 dfm
的余弦相似度对象。一个是我的引用对象,其尺寸为 5 x 4,728,而第二个 dfm
是我的目标对象,尺寸为 2,325,329 x 40,595。
我不明白的是为什么textstat_simil()
返回 NA。我尝试重现“问题”,但到目前为止没有运气。您可以在以下 Dropbox 链接中找到数据。请注意,目标 dfm
仅包含第一个文档。
dfm_match()
增加我的引用
dfm
以匹配目标对象的特征数量。
library(quanteda)
# make sure you load the two required dfms
reference_dfm = dfm_match(reference_dfm, featnames(target_dfm))
textstat_simil( target_dfm, reference_dfm, method = "cosine")
#> textstat_simil object; method = "cosine"
#> negative slightly_negative neutral slightly_positive positive
#> text1.1 NA NA NA NA NA
最佳答案
您的 target_dfm
完全稀疏(全为 0),因此您无法计算余弦相似度。
target_df <- convert(target_dfm, "data.frame")
sum(target_df[,2:ncol(target_df)] > 0)
#> 0
dfm
时安慰它说它是“100.0%稀疏”。这是一个
dfm
1 值远离稀疏,并且计算有效。
test_dfm <- dfm(corpus("adds"))
test_dfm <- dfm_match(test_dfm, featnames(target_dfm))
textstat_simil(test_dfm, reference_dfm2, method = "cosine")
#> textstat_simil object; method = "cosine"
#> negative slightly_negative neutral slightly_positive positive
#> text1.1 0 0 0 0 0
关于r - 为什么 textstat_simil() 方法为 "cosine"返回 NA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61210828/
我正在计算两个 dfm 的余弦相似度对象。一个是我的引用对象,其尺寸为 5 x 4,728,而第二个 dfm是我的目标对象,尺寸为 2,325,329 x 40,595。 我不明白的是为什么texts
我是一名优秀的程序员,十分优秀!