python - 我不明白为什么 sum(df ['series' ]) != df ['series' ].sum()-6ren

python - 我不明白为什么 sum(df ['series' ]) != df ['series' ].sum()

转载作者：行者123 更新时间：2023-12-03 14:29:46

25

4

我正在总结一系列中的值，但根据我如何做，我会得到不同的结果。我试过的两种方法是:

sum(df['series'])

df['series'].sum()

为什么它们会返回不同的值？

示例代码。

s = pd.Series([
0.428229
 , -0.948957
 , -0.110125
 ,  0.791305
 ,  0.113980
 ,-0.479462
 ,-0.623440
 ,-0.610920
 ,-0.135165
 , 0.090192])

 print(s.sum())
 print(sum(s))

 -1.4843630000000003
 -1.4843629999999999

这里的差异非常小，但在包含几千个值的数据集中，它变得非常大。

最佳答案

浮点数只精确到一定数量的有效数字。想象一下，如果您的所有数字(包括中间结果)都只精确到两位有效数字，并且您想要列表 [100, 1, 1, 1, 1, 1, 1] 的总和.

“真实”和是 106 ，但这不能表示，因为我们只允许两位有效数字；

“正确”答案是 110 ，因为这是四舍五入为 2 s.f. 的“真实”总和；

但是如果我们天真地将数字按顺序相加，我们将首先做 100 + 1 = 100(到 2 s.f.)，然后是 100 + 1 = 100(到 2 s.f.)，依此类推，直到最终结果是 100 .

“正确”的答案可以通过将数字从小到大相加得到； 1 + 1 = 2，然后 2 + 1 = 3，然后 3 + 1 = 4，然后 4 + 1 = 5，然后 5 + 1 = 6，然后 6 + 100 = 110(到 2 s.f.)。然而，即使这在一般情况下也不起作用；如果有超过一百个 1，那么中间的总和就会开始不准确。通过始终添加最小的两个剩余数字，您可以做得更好。

Python 内置 sum函数使用朴素算法，而 df['series'].sum()方法使用具有较低累积舍入误差的更准确算法。 From the numpy source code ， Pandas 使用:

For floating point numbers the numerical precision of sum (and np.add.reduce) is in general limited by directly adding each number individually to the result causing rounding errors in every step. However, often numpy will use a numerically better approach (partial pairwise summation) leading to improved precision in many use-cases. This improved precision is always provided when no axis is given.

math.fsum function使用更准确的算法:

In contrast to NumPy, Python's math.fsum function uses a slower but more precise approach to summation.

对于您的列表， math.fsum 的结果是 -1.484363 ，这是正确四舍五入的答案。

关于python - 我不明白为什么 sum(df ['series' ]) != df ['series' ].sum()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59128273/

25

4

0

文章推荐： angularjs - 如何为指令的每个实例添加唯一的 id？

文章推荐： list - 在 Haskell 中合并两个排序列表

文章推荐： laravel-5 - 如何在Laravel中删除表？

series - 更简单的方法重复 `back back series`
有时，我倾向于(重复)执行next next a 来获取特定元素。当您需要 2 次或更少的遍历时，这很有效。然而，它很快就会变得很麻烦。对于这个简单的情况，循环的开销太大。幸运的是，如果您知道位置，
python - pandas.Series 在应该返回一个元素时返回一个 Series
我在使用值为 numpy 数组的 pandas.Series 时遇到了以下奇怪的行为。 % s = pd.Series([5,2], index=[6,7]) %s.loc[6] 5 <-- ret
python - Pandas:查看项目是否在数据框中的 Series.series 列表中
我有一个看起来像这样的数据框(小版本): A B C 0 125 ADB [AF:12] 1 189 ACB [AF:78, AF:85, AF:98] 2 148 ADB
python - Pandas Series 用于计算另一个 Pandas Series 中的值
我在 Pandas (s1) 中创建了一个系列，用于根据原始 DataFrame 中的列 ('d1') 计算这些固定数字 (1-14) 的实例数。我想要的显示在这里(时报)； s1 Last
python - Series.index 与 Series.index.values
pandas series 有两个密切相关的属性:Series.index 和 Series.index.values。这两个中的第一个返回某些 pandas 索引类型的当前索引。它是可变的，可用于
python - 如何将 pandas.core.series.Series 类型转换为二维数组？
我正在尝试使用 KNNClassifier 训练模型。我将数据拆分如下: X_train, X_test, y_train, y_test = train_test_split(X_bow, y, t
python - dataframe.series 和 dataframe ['series' ] 有什么区别？
我只是尝试对我的数据框进行排序并使用了以下函数: df[df.count >= df.count.quantile(.95)] 返回错误: AttributeError: 'function' obj
python - 如何将 pandas.core.series.Series 转换为列表？
我试过了 print(type(numbers[2])) numbers[2].tolist() print(type(numbers[2])) 那是行不通的。我得到了 Numbers 是一个矩阵
python - 如何从时间戳中减去充满日期的 pandas.core.series.Series ，以找到每行日期与该时间戳日期的差异？
我想从时间戳中减去日期。settings.dataset_end_date 是一个 pandas._libs.tslibs.timestamps.Timestamp引用['date_of_patent
python - 从 pandas.core.series.Series 中删除前导零
我有一个带有数据的 pandas.core.series.Series 0 [00115840, 00110005, 001000033, 00116000... 1 [00267285,
python - Series.sort() 和 Series.order() 有什么区别？
s = pd.Series( nr.randint( 0, 10, 5 ), index=nr.randint(0, 10, 5 ) ) s 输出 1 3 7 6 2 0 9
python - pandas Series (pandas.Series.query()) 是否有查询方法或类似方法？
pandas.DataFrame.query() 方法非常适合在加载或绘图时(预/后)过滤数据。它对于方法链特别方便。我发现自己经常想将相同的逻辑应用于 pandas.Series，例如在完成诸如返
python - Pandas Series.apply() 和 Series.map() 有什么区别？
这个问题在这里已经有了答案: Difference between map, applymap and apply methods in Pandas (11 个回答) 去年关闭。 Series.ma
python - 我不明白为什么 sum(df ['series' ]) != df ['series' ].sum()
我正在总结一系列中的值，但根据我如何做，我会得到不同的结果。我试过的两种方法是: sum(df['series']) df['series'].sum() 为什么它们会返回不同的值？示例代码。 s
python - 将类型(字符串)转换为 pandas.core.series.Series
我有一个字符串说 type(abc) >>str 我想把它转换成 pandas.core.series.Series。我在 pandas 文档中看到有一段代码 pd.to_string() 将 pa
python - 将类型(字符串)转换为 pandas.core.series.Series
我有一个字符串说 type(abc) >>str 我想把它转换成 pandas.core.series.Series。我在 pandas 文档中看到有一段代码 pd.to_string() 将 pa
python - Pandas between_time() : datetime series between two other datetime series
这个问题在这里已经有了答案: Pandas: select DF rows based on another DF (5 个答案) 关闭 5 年前。如果我有一个包含开始时间和结束时间的 DataF
python - Series.index 和 Series.key() 之间的主要区别是什么？他们返回完全相同的结果
我尝试了 Series.index 和 Series.keys() 并且输出是相似的。我找不到它们之间的显着差异。它们是否适用于某些特殊条件？我在 Anaconda 上的 Jupyter Noteb
python - pd.Serie 的每一行的平均 "score"基于其通过另一个分数 Series 映射的内容
我有一个(非常大的)系列，其中包含关键字(例如，每行包含多个由“-”分隔的关键字 In[5]: word_series Out[5]: 0 the-cat-is-pink 1
python - 在Python中将时间从 'series object of pandas.core.series module'转换为字符串
我需要使用 pandas.read_excel 通过 Python 获取 Excel 电子表格最后一个单元格的值。该单元格包含一个日期，我需要将其分配给 Python 脚本中的变量。格式为2018-1

首页

博学

6Ren·AI

商城

python - 我不明白为什么 sum(df ['series' ]) != df ['series' ].sum()