gpt4 book ai didi

python - Python 中随时间变化的方差分析,我在做什么?

转载 作者:行者123 更新时间:2023-11-30 23:55:29 24 4
gpt4 key购买 nike

我真的很喜欢统计学,但已经 6 年多没有上过类(class)了。我无法弄清楚我需要什么样的测试,以及用于解决此类问题的最佳 numpy/scipy/R 函数。

我有一个访问者及其相应属性的表格(例如“浏览器 = Mozilla,推荐人 = Google”),以及每个访问者的变量值(例如 5 美元),随着时间的推移分组为数据点。

我的目标是:

A) 查找最重要的属性(property)家族,并对家族的“重要性”进行评分

我想得出的结论示例*:

Referrer has 10x larger effect size upon value-per-visitor than Browser
=> PropertyFamily('browser').significance = 1
=> PropertyFamily('referrer').significance = 10

并且

B) 查找族内最重要的属性,并具有显着性分数。

我想得出的结论示例:

GIVEN THAT Value:Baseline => $5/hit
5 hits from IE @ $5/hit (equal to baseline) => no significance
1 hit from Netscape @ $0 => little significance (not enough data)
10 hits from FF @ $10/hit => HIGH significance (hits and delta_value both high)

我的问题是:

1)是否有 numpy/scipy/R 函数可以让我的生活变得轻松?

2) 对 ANOVA(方差分析)和 ANOVA-over-time 有更多了解的人可以提供反馈吗? 我不确定我是否做得正确,并且可能会遗漏一些简单的东西。 欢迎确认或更正。

请注意,这些是过去 30 天内的(点击数、值、天数)的数组。例如,如果周一 Mozilla 值(value)出现较大峰值(相对于基线),周二 Mozilla 值(value)下降(低于基线),我希望 Mozilla 显示为“重要”属性(而不是峰值/下降相互抵消)

在映射/减少之前我的输入数据示例:

data = {
'baseline': [(hits, value, day) for hits, value, day in last_thirty_days('baseline')],
'browser': {
'mozilla': [(hits, value, day) for hits, value, day in last_thirty_days('browser', 'mozilla')],
... etc ...
}
}
... etc ...

这是我当前的代码——它在 Dumbo/Hadoop 上运行,并提供了一个“重要性”的数字,我基本上发明了这个公式。虽然我的公式有效,并且提供了有意义的数据,但我的“显着性”值没有明确定义(“显着性”属性通常具有> = 100的分数,但这会随着数据集的大小而变化)并且我知道这可能有一个“真正的公式”。

# Runs after each (hits, value, date) tuple has been grouped
# into corresponding "plot points", as they would appear on a graph
pp = PlotPoint(property, date, hits, value)
pp.epc = float(pp.value/pp.hits) if pp.hits else 0

# Finds PlotPoint('baseline', date)
# if pp = PlotPoint('firefox', '1-1-10')
# then pp.baseline == PlotPoint('baseline', '1-1-10')
baseline = pp.baseline()
if baseline.hits == 0:
volume_ratio = 0
else:
volume_ratio = round(100*pp.hits/baseline.hits)
value_ratio = baseline.epc - pp.epc

# Make up a significance value --
# e.g. (10% of visitors * ($1 delta from baseline))^2
pp.significance = math.sqrt(volume_ratio * value_ratio **2)

# OK, we have values for each plotpoint, now sum them up
# to get values for the whole property (over a 30day period)
pps = property.plotpoint_set.all()
property.hits = sum([p.hits for p in pps])
property.value = sum([p.value for p in pps])
property.epc = property.value/property.hits
value_delta = baseline.epc - property.epc

# Make up a significance for the Property, based on each point's significance
property.significance = math.log(sum(
[sss.significance**2 for sss in pps]
)*abs(value_delta)+1)

提前致谢!

最佳答案

据我所知,numpy/scipy 中可用的统计测试相当基础。您可能想研究一下 R,这是一种或多或少专门用于统计的语言,并且具有许多可用的高级功能。

此外,我认为多元方差分析并不是您真正想要做的。多元方差分析适用于有多个相互作用的因变量的情况。这实际上只是一个方差分析。

在 R 中可以执行的操作示例:

bybrowser = lm(value ~ browser, data=visitors)
anova(bybrowser)
byreferrer = lm(value ~ referrer, data=visitors)
anova(byreferrer)
byreferrerandbrowser = lm(value ~ browser * referrer, data=visitors)
anova(byreferrerandbrowser)

请注意,这一切都假设您的值呈正态分布。您应该检查这个假设(hist(visitors$value) 是一个好的开始。)。如果不是,要么找到一种方法将它们标准化(尝试获取日志),要么使用适当的非参数测试。

哦,最后,如果您需要有关统计数据的建议,有一个专门提供此服务的姊妹网站:https://stats.stackexchange.com/

关于python - Python 中随时间变化的方差分析,我在做什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4640798/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com