作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在考虑 number of occurrence of unique words in the Moby Dick novel并使用 powerlaw
python package使单词的频率符合幂律。
我不知道为什么我不能概括 Clauset 等人以前工作的结果。因为 p 值和 KS 分数都是“坏的”。
这个想法是将独特单词的频率拟合为幂律。然而,Kolmogorov-Smirnov 检验通过 scipy.stats.kstest
计算出的拟合优度。看起来很可怕。
我有以下函数来使数据符合幂律:
import numpy as np
import powerlaw
import scipy
from scipy import stats
def fit_x(x):
fit = powerlaw.Fit(x, discrete=True)
alpha = fit.power_law.alpha
xmin = fit.power_law.xmin
print('powerlaw', scipy.stats.kstest(x, "powerlaw", args=(alpha, xmin), N=len(x)))
print('lognorm', scipy.stats.kstest(x, "lognorm", args=(np.mean(x), np.std(x)), N=len(x)))
wget http://tuvalu.santafe.edu/~aaronc/powerlaws/data/words.txt
python 脚本:
x = np.loadtxt('./words.txt')
fit_x(x)
结果:
('powerlaw', KstestResult(statistic=0.862264651286131, pvalue=0.0))
('log norm', KstestResult(statistic=0.9910368602492707, pvalue=0.0))
library("poweRlaw")
data("moby", package="poweRlaw")
m_pl = displ$new(moby)
est = estimate_xmin(m_pl)
m_pl$setXmin(est)
bs_p = bootstrap_p(m_pl)
bs_p$p
## [1] 0.6738
最佳答案
我觉得你应该注意数据是连续的还是离散的,然后选择合适的测试方法;另外,前面说了,数据的大小会对结果有一定的影响,希望对你有帮助
关于python - 如何正确地将数据拟合到 Python 中的幂律?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57350705/
我有一个带有 id、x 和 y 坐标的顶点 vector ,我想为我的顶点生成一个幂律图。 Boost 库图提供幂律 plod_iterator() 但我如何用我的顶点生成它。任何人都可以帮忙吗? 最
我是一名优秀的程序员,十分优秀!