- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的数据框包含数百列。幸运的是,它们可以分为两大组,并具有常规的列名称。第 1 组包含列 Pdc、Pdc.1、Pdc.2 .... Pdc.250。第 2 组由 Pac、Pac.1.、Pac.2 .... Pac.250 组成。请注意,每组的第一列不包含后缀号。
我想使用以下规则填充所有 NaN,无论它们在哪里:
第 1 组(目标列和行)中的列的任何行中的 NaN 都将使用第 2 组中具有相同顺序(源列和行)的列的值乘以目标列的平均值除以平均值来填充源列的。
为了简单起见,例如,如果 NaN 位于 Pdc.25 第 10 行(第 1 组),则应填充为:
Pdc.25 第 10 行 = Pac.25 第 10 行 *(平均 Pdc.25/平均 Pac.25)
如果 NaN 在第 2 组中,则公式如下:
Pac.30 第 15 行 = Pdc.30 第 15 行 *(平均 Pac.30/平均 Pdc.30)
我编写了以下代码:
df['Pdc.25'] = (df['Pdc.25'].fillna(df['Pac.25']*((df['Pdc.25'].mean()/df['Pac.25'].mean())))).to_frame()
df['Pac.30'] = (df['Pac.30'].fillna(df['Pdc.30']*((df['Pac.30'].mean()/df['Pdc.30'].mean())))).to_frame()
上面的代码运行得很好,但是对于 500 列,我必须编写 500 行方程。
是否知道如何使其变得简单,例如,自动定位 NaN 并根据规则填充它们?
感谢您查看我的问题。
最佳答案
确保列已排序,并根据您的命名约定使用 .values
来对齐操作。可以使用 .where
来填充所有内容。如果您希望在缺少列的情况下更安全(即您有 Pac.31 但没有 Pdc.31),请映射操作的列名称,以便保证对齐。
import pandas as pd
#df = df.sort_index(axis=1)
pac = df.filter(like='Pac')
pdc = df.filter(like='Pdc')
df_res = pd.concat([pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values),
pdc.where(pdc.notnull(), pac.multiply(pdc.mean().div(pac.mean().values).values).values)
], axis=1)
df_res
: Pac Pac.1 Pac.2 Pdc Pdc.1 Pdc.2
0 1.000000 6.0 3.000000 1.285714 4.952381 2.0
1 1.555556 1.0 2.000000 2.000000 2.000000 1.0
2 7.000000 6.0 3.714286 7.000000 4.952381 3.0
3 6.000000 7.0 5.000000 5.000000 5.000000 7.0
4 5.000000 2.0 3.714286 6.000000 1.650794 3.0
5 2.000000 7.0 4.000000 7.000000 5.000000 1.0
6 3.000000 4.0 3.000000 4.000000 1.000000 1.0
7 1.000000 5.0 3.000000 1.285714 7.000000 3.0
8 5.000000 5.0 6.000000 4.000000 5.000000 6.0
9 5.000000 2.0 3.714286 6.428571 1.000000 3.0
import numpy as np
df = pd.DataFrame(np.random.choice([1,2,3,4,5,6,7, np.NaN], (10,6)),
columns = ['Pdc', 'Pdc.1', 'Pdc.2', 'Pac', 'Pac.1', 'Pac.2'])
Pdc Pdc.1 Pdc.2 Pac Pac.1 Pac.2
0 NaN NaN 2.0 1.0 6.0 3.0
1 2.0 2.0 1.0 NaN 1.0 2.0
2 7.0 NaN 3.0 7.0 6.0 NaN
3 5.0 5.0 7.0 6.0 7.0 5.0
4 6.0 NaN 3.0 5.0 2.0 NaN
5 7.0 5.0 1.0 2.0 7.0 4.0
6 4.0 1.0 1.0 3.0 4.0 3.0
7 NaN 7.0 3.0 1.0 5.0 3.0
8 4.0 5.0 6.0 5.0 5.0 6.0
9 NaN 1.0 3.0 5.0 2.0 NaN
<小时/>
第一步是对列进行排序,然后过滤查找以字符串 'Pac'
或 'Pdc'
开头的列。由于我们对索引进行了排序,这保证了排序是一致的(只要组中的后缀集相同)
df = df.sort_index(axis=1)
pac = df.filter(like='Pac')
pdc = df.filter(like='Pdc')
print(pac.head(3))
# Pac Pac.1 Pac.2
#0 1.0 6.0 3.0
#1 NaN 1.0 2.0
#2 7.0 6.0 NaN
print(pdc.head(3))
# Pdc Pdc.1 Pdc.2
#0 NaN NaN 2.0
#1 2.0 2.0 1.0
#2 7.0 NaN 3.0
现在我们可以计算一下。忽略 .fillna
逻辑,只考虑计算我们将为所有内容填充的内容。 DataFrame
操作在索引上对齐(行和列)。您可以看到 pac
和 pdc
共享行索引,但列索引(列名称)不同,这会导致问题:
pac.mean()
#Pac 3.888889
#Pac.1 4.500000
#Pac.2 3.714286
#dtype: float64
pdc.mean()
#Pdc 5.000000
#Pdc.1 3.714286
#Pdc.2 3.000000
#dtype: float64
pac.mean().div(pdc.mean())
#Pac NaN
#Pac.1 NaN
#Pac.2 NaN
#Pdc NaN
#Pdc.1 NaN
#Pdc.2 NaN
但是,因为我们之前已排序,所以我们可以看到值
是对齐的,因此我们安全地划分每列意味着访问值数组。这给出了每个 Pac
列的平均值除以相应 Pdc
列的平均值。
pac.mean().div(pdc.mean().values)
#Pac 0.777778
#Pac.1 1.211538
#Pac.2 1.238095
#dtype: float64
乘法也有同样的对齐问题,所以再次访问这些值,现在这给了我们一个 DataFrame
,与子集的形状相同,如果值为空,我们应该填充什么:
pdc.multiply(pac.mean().div(pdc.mean().values).values)
# Pdc Pdc.1 Pdc.2
#0 NaN NaN 2.476190
#1 1.555556 2.423077 1.238095
#...
最后,fillna
逻辑是通过 where
完成的,因为我们有两个 DataFrame
:
pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values)
可以理解为“使用 pac 中不为空的值,否则使用计算中的值”,这正是我们想要的。我们再次需要访问 where
的“other”(第二个参数)的 .values
,因为列名再次不同,但值是对齐的。
分别为每个组执行此操作,然后将他们重新加入。
关于python - 通过检测 NaN 出现的位置,对其他列进行数学运算,将 NaN 填充到列中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54830897/
Based on Deep Learning (2017, MIT) book. 本文基于Deep Learning (2017, MIT),推导过程补全了所涉及的知识及书中推导过程中跳跃和省
因此,我需要一种方法来弄清楚如何获得5个数字,并且当您将它们中的任意两个相加时,将得出一个总和,您只能通过将这两个特定的数字相加而得到。 这是我正在谈论的示例,但有3个数字: 1个 3 5 1 + 3
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
如何将 a 和 b 之间的数字线性映射到 c 和 d 之间。 也就是说,我希望 2 到 6 之间的数字映射到 10 到 20 之间的数字...但我需要广义的情况。 我的脑子快炸了。 最佳答案 如果您的
嘿,我有一个方程式,我需要弄清楚它是基于图表的数学,其中图表上有两个点,需要获取其余值: 我正在构建一个 javascript 页面,它获取图表上的两个点,但需要吐出图表上的任何位置。 它用于根据了解
有谁知道如何用 Doxygen 得到实复场或射影平面的符号,i.o.w 符号,如 IR、IC、IP 等? 例如,我尝试了\f$\field{R}\f$,但无法识别。 非常感谢您的帮助,G. 最佳答案
我正在使用 Segment to Segment 最接近方法,该方法将输出两个长度段之间的最近距离。每个段对应一个球体对象的起点和终点。速度只是从一个点到另一个点。 即使没有真正的碰撞,最近的方法也可
我有一个 arduino 连接到 Stradella 系统钢琴 Accordion 。我在左手和弦的 12 个音符中的每一个上都有光学传感器。当我弹奏和弦时,它会触发三个传感器。如果我想让合成器演奏和
我正在开发一个具有一些简单功能的新包。现在我可以使用已经存在的“math-vectors”库中的函数;特别是“插值”和“反转”。如何在我的新包中使用这些?编写 y:=reverse(...) 显然是不
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Integer division in JavaScript 希望这是一个简单的问题,基本上我需要这样做: 分隔线
我有一张表格,上面有学校类(class)。此表单上可以有任意数量的类,每个类有 2 个字段。书本费和学费。 我有一个名为总计的第三个字段,当他们在其他字段中输入成本时,我想更新该字段。 这就是我的设置
今天早些时候我问了一个类似的问题,结果发现我只是数学很烂,因为我也无法解决这个问题。 我通过宽度/高度计算屏幕比例。我需要一个函数来将结果数字转换为新的比例。 例如 function convertN
我有一个起始数字,因此必须仅在开始循环时将该数字乘以一个因子,然后将结果乘以另一个因子的 X 倍,然后必须将循环乘以 Y 次,最后我需要总金额...我认为最好查看数字来了解我需要什么 例如,如果我从数
现在我用 JAVA 遇到了一些问题,但不记得如何获取坐标系之间的长度。 例如。A 点 (3,7)B点(7,59) 我想知道如何计算a点和b点之间的距离。非常感谢您的回答。 :-) 最佳答案 A = (
我有两种类型的文本输入,积极的和可疑的。在将输入到这两种类型的输入中的所有数字相加后,我需要显示多组这些输入的总数。例如:2 个阳性 + 2 个可疑 = 总计:4 然后,我需要从总数中找出积极与可疑的
我正在尝试将输入金额乘以 3.5%,任何人都可以给我任何想法如何做到这一点吗? $("#invest_amount").keyup(function() { $('#fee').va
有谁知道返回a的最大数的Math方法 给定的位数。 例如,使用1位数字的最大数字是9,2是99,3是999,4是9999......等等。 使用字符串很容易实现,但这并不完全 我在找什么。 pri
我是 Knockout 的新手,但仍对它一头雾水,我想知道如何使用两个 KO 变量进行简单的数学运算(加法和乘法)。 此刻我有: self.popInc1 = ko.observable('0.3')
我在谷歌地图应用程序中有以下内容,并希望显示转换为英尺的海拔高度,但如何向上/向下舍入到最接近的数字? (消除小数点后的数字)我尝试了 number.toFixed(x) 方法,但似乎什么也没做。 f
我最近开始使用 JavaScript 编写小型 Canvas 游戏,并试图全神贯注于 Vector 2d 数学。我了解 Vectors 的基础知识(比如它们代表 2d 空间中具有方向的点,您可以对它们
我是一名优秀的程序员,十分优秀!