我正在尝试用经验数据重新创建以下积分:
其中 F、G 是 cdf,它们的反函数是分位数函数。
这是我的代码:
def eqces(u,v):
import numpy as np
import statsmodels.api as sm
from scipy.stats.mstats import mquantiles
ecdfu = sm.distributions.ECDF(u)
ecdfv = sm.distributions.ECDF(v)
p = np.concatenate([ecdfu.y, ecdfv.y])
p = np.unique(p)
p.sort()
qfu = mquantiles(u, p)
qfv = mquantiles(v, p)
uvinv = ecdfu(qfv)
vuinv = ecdfv(qfu)
result = abs(uvinv - p) + abs(vuinv - p)
return np.dot(result, np.ones(p.size))
有了这个,我希望 u = np.random.uniform(0,1,50)
的 eqces(u,u) = 0
但这通常是事实并非如此。谁能告诉我我是否做错了什么或建议替代方案?
编辑
通过一些分析结果,这段代码似乎效果更好:
def eqces(u,v):
ecdfu = sm.distributions.ECDF(u)
ecdfv = sm.distributions.ECDF(v)
p = np.concatenate([ecdfu.y, ecdfv.y])
X = np.concatenate([ecdfu.x, ecdfv.x])
return 2*np.dot(np.abs(ecdfu(X)-p)+np.abs(ecdfv(X)-p), np.ones(p.size))/p.size
我的猜测是 ECDF
和 mquantiles
不使用相同的绘图位置
mquantiles
具有可选关键字 alphap=0.4、betap=0.4
。
p
和 uvinv
在这种情况下不会往返。
但是,在大样本中,差异应该很小。
scipy.stats.ks_2samp
正在做类似的事情,但直接使用numpy而不需要辅助函数。
顺便说一句:两个分布之间的距离测量有名称吗?
我是一名优秀的程序员,十分优秀!