gpt4 book ai didi

python - pandas 统计函数和 boost::accumulators 之间的区别

转载 作者:太空狗 更新时间:2023-10-29 22:54:38 25 4
gpt4 key购买 nike

我在使用 pandasboost::accumulators 进行统计计算时得到了不同的结果,我不确定为什么。

下面是一个使用 pandas 计算一些返回的均值和方差的简单示例

import pandas

vals = [ 1, 1, 2, 1, 3, 2, 3, 4, 6, 3, 2, 1 ]
rets = pandas.Series(vals).pct_change()

print(f'count: {len(rets)}')
print(f'mean: {rets.mean()}')
print(f'variance: {rets.var()}')

这个的输出是:

count:    12
mean: 0.19696969696969696
variance: 0.6156565656565657

我在 C++ 中使用 boost::accumulators 进行统计计算

#include <iostream>
#include <iomanip>
#include <cmath>
#include <boost/accumulators/accumulators.hpp>
#include <boost/accumulators/statistics/stats.hpp>
#include <boost/accumulators/statistics/count.hpp>
#include <boost/accumulators/statistics/mean.hpp>
#include <boost/accumulators/statistics/variance.hpp>

namespace acc = boost::accumulators;

int main()
{
acc::accumulator_set<double, acc::stats<acc::tag::count,
acc::tag::mean,
acc::tag::variance>> stats;

double prev = NAN;
for (double val : { 1, 1, 2, 1, 3, 2, 3, 4, 6, 3, 2, 1 })
{
const double ret = (val - prev) / prev;

stats(std::isnan(ret) ? 0 : ret);

prev = val;
}

std::cout << std::setprecision(16)
<< "count: " << acc::count(stats) << '\n'
<< "mean: " << acc::mean(stats) << '\n'
<< "variance: " << acc::variance(stats) << '\n';

return 0;
}

这个的输出是:

count:    12
mean: 0.1805555555555556
variance: 0.5160108024691359
  • 为什么 pandas 和 boost::accumulators 的均值和方差不同?
  • 我需要做什么才能从 boost::accumulators 获得 pandas 结果?

最佳答案

在 pandas 中,当你默认执行 mean 时,它会删除 nan 列,如果我们将 nan 填充为 0 ,输出是相同的,因为你做 pct_change ,第一项应该是 NaN

rets.mean()
Out[67]: 0.19696969696969696

rets.fillna(0).mean()
Out[69]: 0.18055555555555555

关于var让自由度为0

rets.fillna(0).var(ddof=0)
Out[86]: 0.5160108024691358

关于python - pandas 统计函数和 boost::accumulators 之间的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54636676/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com