- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试根据 medical_plan_id
将我的数据框分成两部分。如果为空,则进入df1
。如果不为空则进入df2
。
df1 = df_with_medicalplanid[df_with_medicalplanid['medical_plan_id'] == ""]
df2 = df_with_medicalplanid[df_with_medicalplanid['medical_plan_id'] is not ""]
下面的代码有效,但如果没有空字段,我的代码会引发 TypeError("invalid type comparison")
。
df1 = df_with_medicalplanid[df_with_medicalplanid['medical_plan_id'] == ""]
如何处理这种情况?
我的 df_with_medicalplanid 如下所示:
wellthie_issuer_identifier ... medical_plan_id
0 UHC99806 ... None
1 UHC99806 ... None
最佳答案
==
,而不是is
,来测试相等性同样,使用 !=
而不是 is not
来表示不等式。
is
在 Python 中有特殊的含义。如果两个变量指向同一个对象,它返回 True
,而 ==
检查变量引用的对象是否相等。另见 Is there a difference between ==
and is
in Python?。
您正在创建的 bool 掩码是逻辑中最昂贵的部分。这也是您要避免手动重复的逻辑,因为您的第一个和第二个掩码是彼此相反的。因此,您可以使用 bitwise inverse ~
(“代字号”)(也可通过 operator.invert
访问)来否定现有掩码。
可以通过 == ''
测试相等与空字符串,但相等与空值需要专门的方法:pd.Series.isnull
。这是因为空值在 NumPy 数组中表示,Pandas 使用 np.nan
和 np.nan != np.nan
by design。
如果你想用空值替换空字符串,你可以这样做:
df['medical_plan_id'] = df['medical_plan_id'].replace('', np.nan)
从概念上讲,缺失值是 null (np.nan
) 而不是空字符串是有意义的。但是与上述过程相反,即将 null 值转换为空字符串也是可能的:
df['medical_plan_id'] = df['medical_plan_id'].fillna('')
如果差异很重要,您需要了解您的数据并应用适当的逻辑。
假设你确实有空值,计算一个 bool 掩码及其逆:
mask = df['medical_plan_id'].isnull()
df1 = df[mask]
df2 = df[~mask]
作为程序员,您应该避免创建额外的变量。在这种情况下,无需创建两个新变量,您可以将 GroupBy
与 dict
一起使用,以提供带有 False
(== 0
) 和 True
(== 1
) 键对应于你的掩码:
dfs = dict(tuple(df.groupby(df['medical_plan_id'].isnull())))
然后 dfs[0]
代表 df2
和 dfs[1]
代表 df1
(另见 this related answer ) .上述的变体,您可以放弃字典构建并使用 Pandas GroupBy
方法:
dfs = df.groupby(df['medical_plan_id'].isnull())
dfs.get_group(0) # equivalent to dfs[0] from dict solution
dfs.get_group(1) # equivalent to dfs[1] from dict solution
将以上所有内容付诸实践:
df = pd.DataFrame({'medical_plan_id': [np.nan, '', 2134, 4325, 6543, '', np.nan],
'values': [1, 2, 3, 4, 5, 6, 7]})
df['medical_plan_id'] = df['medical_plan_id'].replace('', np.nan)
dfs = dict(tuple(df.groupby(df['medical_plan_id'].isnull())))
print(dfs[0], dfs[1], sep='\n'*2)
medical_plan_id values
2 2134.0 3
3 4325.0 4
4 6543.0 5
medical_plan_id values
0 NaN 1
1 NaN 2
5 NaN 6
6 NaN 7
关于python - 根据条件拆分数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52966811/
我正在努力处理查询的 WHERE 部分。查询本身包含一个基于两个表中都存在的 ID 的 LEFT JOIN。但是,我要求 where 语句仅返回其中一列中存在的最大单个结果。目前我返回连接中的所有值,
我有这个代码来改变文件系统的大小。问题是,即使满足 if 条件,它也不会进入 if 条件,而我根本没有检查 if 条件。它直接进入 else 条件。 运行代码后的结果 post-install-ray
假设我有一个包含 2 列的 Excel 表格:单元格 A1 到 A10 中的日期和 B1 到 B10 中的值。 我想对五月日期的所有值求和。我有3种可能性: {=SUM((MONTH(A1:A10)=
伪代码: SELECT * FROM 'table' WHERE ('date' row.date 或 ,我们在Stack Overflow上找到一个类似的问题: https://stackove
我有下面这行代码做一个简单的查询 if ($this->fulfilled) $criteria->addCondition('fulfilled ' . (($this->fulfilled
如果在数据库中找到用户输入的键,我将尝试显示“表”中的数据。目前我已将其设置为让数据库检查 key 是否存在,如下所示: //Select all from table if a key entry
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 5 年前。 Improve th
在MYSQL中可以吗 一共有三个表 任务(task_id、task_status、...) tasks_assigned_to(ta_id、task_id、user_id) task_suggeste
我想先根据用户的状态然后根据用户名来排序我的 sql 请求。该状态由 user_type 列设置: 1=活跃,2=不活跃,3=创始人。 我会使用此请求来执行此操作,但它不起作用,因为我想在“活跃”成员
下面两个函数中最专业的代码风格是什么? 如果函数变得更复杂和更大,例如有 20 个检查怎么办? 注意:每次检查后我都需要做一些事情,所以我不能将所有内容连接到一个 if 语句中,例如: if (veh
我在 C# 项目中使用 EntityFramework 6.1.3 和 SQL Server。我有两个查询,基本上应该执行相同的操作。 1. Exams.GroupBy(x=>x.SubjectID)
我试图在 case when 语句中放入两个条件,但我在 postgresql 中遇到语法错误 case when condition 1 and condition 2 then X else Y
我正在构建一个连接多个表的查询,一个表 prodRecipe 将包含某些行的数据,但不是全部,但是 tmp_inv1 将包含所有行的计数信息。问题是,tmp_inv1.count 取决于某个项目是否在
我有一个涉及 couples of rows which have a less-than-2-hours time-difference 的查询(~0.08333 天): SELECT mt1.*,
我有一个包含许多这样的 OR 条件的代码(工作正常)来检查其中一个值是否为空,然后我们抛出一条错误消息(所有这些都必须填写) } elsif ( !$params{'account'}
我有一个名为 spGetOrders 的存储过程,它接受一些参数:@startdate 和 @enddate。这将查询“订单”表。表中的一列称为“ClosedDate”。如果订单尚未关闭,则此列将保留
在代码中,注释部分是我需要解决的问题...有没有办法在 LINQ 中编写这样的查询?我需要这个,因为我需要根据状态进行排序。 var result = ( from contact in d
我正在尝试创建一个允许省略参数的存储过程,但如果提供了参数,则进行 AND 操作: CREATE PROCEDURE MyProcedure @LastName Varchar(30)
我正在寻找一种方法来过滤我的主机文件中的新 IP 地址。我创建了一个脚本,每次我用来自矩阵企业管理器的数据调用它时都会更新我的主机文件。它工作正常。但是我必须找到一个解决方案,只允许更新 10.XX.
所以我正在做一种 slider ,当它完全向下时隐藏向下按钮,反之亦然,当向上按钮隐藏时,我遇到了问题。 var amount = $('slide').attr('number'); $('span
我是一名优秀的程序员,十分优秀!