pandas - 如何在 polars DataFrame 中的每一列与该列的平均值之间轻松执行计算-6ren

pandas - 如何在 polars DataFrame 中的每一列与该列的平均值之间轻松执行计算

转载作者：行者123 更新时间：2023-12-02 15:50:51

环境

macos:             monterey
node:              v18.1.0
nodejs-polars:     0.5.3

目标

用该列的平均值减去 polars DataFrame 中的每一列。

Pandas 解决方案

由于 DataFrame.sub(other, axis='columns', level=None, fill_value=None)，在 pandas 中解决方案非常简洁。 other 是标量、序列、系列或 DataFrame:

df.sub(df.mean())
df - df.mean()

nodejs-polars解决方案

虽然在 nodejs-polars function 中，other 根据 sub: (other) => wrap("sub", prepareOtherArg 似乎只是一个 Series (其他).inner()).

1。准备数据

console.log(df)
┌─────────┬─────────┬─────────┬─────────┐
│   A     ┆   B     ┆   C     ┆   D     │
│ ---     ┆ ---     ┆ ---     ┆ ---     │
│ i64     ┆ i64     ┆ i64     ┆ i64     │
╞═════════╪═════════╪═════════╪═════════╡
│ 13520   ┆ -16     ┆ 384     ┆ 208     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 13472   ┆ -16     ┆ 384     ┆ 176     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 13456   ┆ -16     ┆ 368     ┆ 160     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 13472   ┆ -16     ┆ 368     ┆ 160     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
│ 13472   ┆ -16     ┆ 352     ┆ 176     │
└─────────┴─────────┴─────────┴─────────┘

console.log(df.mean())
┌─────────┬─────────┬─────────┬─────────┐
│   A     ┆   B     ┆   C     ┆   D     │
│ ---     ┆ ---     ┆ ---     ┆ ---     │
│ f64     ┆ f64     ┆ f64     ┆ f64     │
╞═════════╪═════════╪═════════╪═════════╡
│ 13478.4 ┆ -16.0   ┆ 371.2   ┆ 176.0   │
└─────────┴─────────┴─────────┴─────────┘

2。第一次尝试

df.sub(df.mean())

Error: Failed to determine supertype of Int64 and Struct([Field { name: "A", dtype: Int32 }, Field { name: "B", dtype: Int32 }, Field { name: "C", dtype: Int32 }, Field { name: "D", dtype: Int32 }])

3。第二次尝试

df.sub(pl.Series(df.mean().row(0)))

Program crashes due to memory problems.

4。第三次尝试

经过一些调查，我注意到了 tests :

test("sub", () => {
  const actual = pl.DataFrame({
    "foo": [1, 2, 3],
    "bar": [4, 5, 6]
  }).sub(1);
  const expected = pl.DataFrame({
    "foo": [0, 1, 2],
    "bar": [3, 4, 5]
  });
  expect(actual).toFrameEqual(expected);
});
test("sub:series", () => {
  const actual = pl.DataFrame({
    "foo": [1, 2, 3],
    "bar": [4, 5, 6]
  }).sub(pl.Series([1, 2, 3]));
  const expected = pl.DataFrame({
    "foo": [0, 0, 0],
    "bar": [3, 3, 3]
  });
  expect(actual).toFrameEqual(expected);
});

nodejs-polars 现在似乎无法优雅地完成这个任务。所以我目前的解决方案有点麻烦:逐列执行操作然后连接结果。

pl.concat(df.columns.map((col) => df.select(col).sub(df.select(col).mean(0).toSeries())), {how:'horizontal'})

有更好或更简单的方法吗？

5。新的尝试

我刚刚提出了一个更简单的解决方案，但它很难理解，我仍在努力弄清楚幕后发生了什么。

df.select(pl.col('*').sub(pl.col('*').mean()))

最佳答案

你用 [python-polars] 标记了这个问题，所以我将提供一个使用 Polars 和 Python 的解决方案。 (也许您可以将其转换为 Node-JS。)

从我们的数据开始:

import polars as pl

df = pl.DataFrame(
    {
        "A": [13520, 13472, 13456, 13472, 13472],
        "B": [-16, -16, -16, -16, -16],
        "C": [384, 384, 368, 368, 352],
        "D": [208, 176, 160, 160, 176],
    }
)
df

shape: (5, 4)
┌───────┬─────┬─────┬─────┐
│ A     ┆ B   ┆ C   ┆ D   │
│ ---   ┆ --- ┆ --- ┆ --- │
│ i64   ┆ i64 ┆ i64 ┆ i64 │
╞═══════╪═════╪═════╪═════╡
│ 13520 ┆ -16 ┆ 384 ┆ 208 │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┤
│ 13472 ┆ -16 ┆ 384 ┆ 176 │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┤
│ 13456 ┆ -16 ┆ 368 ┆ 160 │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┤
│ 13472 ┆ -16 ┆ 368 ┆ 160 │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┤
│ 13472 ┆ -16 ┆ 352 ┆ 176 │
└───────┴─────┴─────┴─────┘

我们可以非常简洁地解决这个问题:

df.with_columns([
    (pl.all() - pl.all().mean()).suffix('_centered')
])

shape: (5, 8)
┌───────┬─────┬─────┬─────┬────────────┬────────────┬────────────┬────────────┐
│ A     ┆ B   ┆ C   ┆ D   ┆ A_centered ┆ B_centered ┆ C_centered ┆ D_centered │
│ ---   ┆ --- ┆ --- ┆ --- ┆ ---        ┆ ---        ┆ ---        ┆ ---        │
│ i64   ┆ i64 ┆ i64 ┆ i64 ┆ f64        ┆ f64        ┆ f64        ┆ f64        │
╞═══════╪═════╪═════╪═════╪════════════╪════════════╪════════════╪════════════╡
│ 13520 ┆ -16 ┆ 384 ┆ 208 ┆ 41.6       ┆ 0.0        ┆ 12.8       ┆ 32.0       │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┤
│ 13472 ┆ -16 ┆ 384 ┆ 176 ┆ -6.4       ┆ 0.0        ┆ 12.8       ┆ 0.0        │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┤
│ 13456 ┆ -16 ┆ 368 ┆ 160 ┆ -22.4      ┆ 0.0        ┆ -3.2       ┆ -16.0      │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┤
│ 13472 ┆ -16 ┆ 368 ┆ 160 ┆ -6.4       ┆ 0.0        ┆ -3.2       ┆ -16.0      │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌┤
│ 13472 ┆ -16 ┆ 352 ┆ 176 ┆ -6.4       ┆ 0.0        ┆ -19.2      ┆ 0.0        │
└───────┴─────┴─────┴─────┴────────────┴────────────┴────────────┴────────────┘

如果要覆盖列，可以去掉suffix表达式:

df.with_columns([
    (pl.all() - pl.all().mean())
])

shape: (5, 4)
┌───────┬─────┬───────┬───────┐
│ A     ┆ B   ┆ C     ┆ D     │
│ ---   ┆ --- ┆ ---   ┆ ---   │
│ f64   ┆ f64 ┆ f64   ┆ f64   │
╞═══════╪═════╪═══════╪═══════╡
│ 41.6  ┆ 0.0 ┆ 12.8  ┆ 32.0  │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌┤
│ -6.4  ┆ 0.0 ┆ 12.8  ┆ 0.0   │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌┤
│ -22.4 ┆ 0.0 ┆ -3.2  ┆ -16.0 │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌┤
│ -6.4  ┆ 0.0 ┆ -3.2  ┆ -16.0 │
├╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌┤
│ -6.4  ┆ 0.0 ┆ -19.2 ┆ 0.0   │
└───────┴─────┴───────┴───────┘

编辑:本质上，polars.all 或 polars.col('*') 为每一列复制了一个完整的表达式，这样:

pl.col('*') - pl.col('*').mean()

是语法糖:

[
  pl.col('A') - pl.col('A').mean(),
  pl.col('B') - pl.col('B').mean(),
  pl.col('C') - pl.col('C').mean(),
  pl.col('D') - pl.col('D').mean(),
]

关于pandas - 如何在 polars DataFrame 中的每一列与该列的平均值之间轻松执行计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72539701/

文章推荐： c - 静态修饰符在 C 中如何工作？

文章推荐： python - 安装 mediapipe 库后 cv2 不工作

服务器端的 Firebird 计算(计算)字段
SQL 和一般开发的新手，我有一个表(COUNTRIES)，其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
jquery - 计算(百分比)计算(像素)
我想使用 calc(100%-100px)，但在我的 demo 中不起作用由于高度只接受像素，因此如何将此百分比值转换为像素。最佳答案以下将为您提供高度: $(window).height();
MySql 计算
我正在尝试在 MySQL 中添加列并动态填充其他列。例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列，这些总数应填充在第 4 列中最佳答案除非我误解了你的问题，否则你不只是在寻找:
mysql - 计算
我想返回简单计算的结果，但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
嵌套for循环中的c++计算
我一直在尝试做这个程序，但我被卡住了，我仍然是一个初学者，任何帮助将不胜感激。我需要程序来做打印一个 10 X 10 的表格，其中表格中的每个条目都是行号和列号的总和包含一个累加器，用于计算所有表
c - 计算
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
计算 AND 的算法
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间，不能使用 XOR、OR、AND 运算。具体来说，
Excel - 在数字格式中使用公式/计算
如何在 Excel 中将公式放入自定义数字格式？例如(出于说明目的随机示例)，假设我有以下数据: 输入输出在不编辑单元格中的实际数据的情况下，我想显示单元格中的值除以 2，并保留两位小数: 有没
Flutter:隔离内存泄漏(计算)
每次我在 Flutter 应用程序中调用计算()时，我都会看到内存泄漏，据我所知，这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。我已将我的代码简化为仅调
R中的RMSE(均方根偏差)计算
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
计算 C 文件中未知数量的字符
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
sql - 计算/派生连续日期跨度中的第一个开始日期
我正在使用 Postgres，并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
jquery - 计算，用逗号替换点
我有一个订单表格，我在其中使用 jQuery 计算插件来汇总总数。此求和工作正常，但生成的“总和”存在问题。总之，我希望用逗号替换任何点。代码的基础是； function ($this) {
Delphi错误的 double 计算
我在使用 double 变量计算简单算术方程时遇到问题。我有一个具有 double 属性 Value 的组件，我将此属性设置为 100。然后我做一个简单的减法来检查这个值是否真的是 100: va
openssl CRC32 计算
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意，因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持？我已经在为 SHA1 使用 openssl，
php - 计算-1个月时的PHP天错误
当我在PHP日期计算中遇到问题时，我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
持有变量的 JavaScript 计算
我正在使用 javascript 进行练习，我编写了这个脚本来计算 2 个变量的总和，然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
audio - sample 计算
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。我正在尝试制作一些python脚本来播放文件，因为我需要能够设置在flac文件中开始的位置。如何从CueSheet格式MM:SS:FF转
javascript - 计算 for 循环中输入值的总和
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。我有一个
使用输入和跨度字段的 Javascript 计算
4000 我需要上面字段 name="quantity" 和 id="price" 中的值，并使用 javascript 函数进行计算，并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城