python - 我可以将 pandas.dataframe.isin() 与数字容差参数一起使用吗？-6ren

python - 我可以将 pandas.dataframe.isin() 与数字容差参数一起使用吗？

转载作者：太空狗更新时间：2023-10-29 21:25:38

26

4

我事先查看了以下帖子。有没有办法将 DataFrame.isin() 与近似因子或公差值一起使用？还是有其他方法可以？

Filter dataframe rows if value in column is in a set list of values

use a list of values to select rows from a pandas dataframe

例如)

df = DataFrame({'A' : [5,6,3.3,4], 'B' : [1,2,3.2, 5]})

In : df
Out:
   A    B
0  5    1
1  6    2
2  3.3  3.2
3  4    5  

df[df['A'].isin([3, 6], tol=.5)]

In : df
Out:
   A    B
1  6    2
2  3.3  3.2

最佳答案

您可以使用 numpy's isclose 做类似的事情:

df[np.isclose(df['A'].values[:, None], [3, 6], atol=.5).any(axis=1)]
Out: 
     A    B
1  6.0  2.0
2  3.3  3.2

np.isclose 返回这个:

np.isclose(df['A'].values[:, None], [3, 6], atol=.5)
Out: 
array([[False, False],
       [False,  True],
       [ True, False],
       [False, False]], dtype=bool)

它是 df['A'] 的元素和 [3, 6] 的成对比较(这就是为什么我们需要 df['A '].values[: None] - 用于广播)。由于您正在寻找它是否接近列表中的任何一个，因此我们在最后调用 .any(axis=1)。

对于多列，稍微改变切片:

mask = np.isclose(df[['A', 'B']].values[:, :, None], [3, 6], atol=0.5).any(axis=(1, 2))
mask
Out: array([False,  True,  True, False], dtype=bool)

您可以使用此掩码对 DataFrame 进行切片(即 df[mask])

如果你想比较 df['A'] 和 df['B'](以及可能的其他列)与不同的向量，你可以创建两个不同的面具:

mask1 = np.isclose(df['A'].values[:, None], [1, 2, 3], atol=.5).any(axis=1)
mask2 = np.isclose(df['B'].values[:, None], [4, 5], atol=.5).any(axis=1)
mask3 = ...

然后切片:

df[mask1 & mask2]  # or df[mask1 & mask2 & mask3 & ...]

关于python - 我可以将 pandas.dataframe.isin() 与数字容差参数一起使用吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39602004/

26

4

0

文章推荐： c++ - WebP 无损格式概述

文章推荐： python - 如何计算部分曲线下面积 (AUC)

文章推荐： C# SqlDataReader 执行统计和信息

python - Pandas :使用 .isin() 返回错误: "AttributeError: float' 对象没有属性 'isin'“
我正在使用 Pandas 和 Python 导入一个 CSV，并对导入的数据框中的数据进行操作，以便创建一个新列。新列中的每一行都是基于 A 列和 B 列的每个对应行中的值生成的。数据框中有更多包含
Pandas 无法计算具有重复轴的 isin
我的数据框是这样的: userid codeassigned timestamp 15 553938
regex - 从字符串中解析出 ISIN
我想从一个非常奇怪的字符串中解析出一个 ISIN，我的代码如下所示: > df dput(df) structure(list(ID = c(1L, 2L, 4L, 2L, 3L, 24L), VA
python - isin() 准确性的一些问题
我对 isin() 函数准确性有一些问题。我的 DataFrame 中有 abc 许多 ID: df = DataFrame[DataFrame['id'].isin(IDs)] 但是结果: pri
python - 如何使用字典和 isin()？
我有一本字典，我想使用该字典对 df 中的新列进行分类。 df 中的 Value 列应该与字典中的值进行比较。 df 中的新列应该是与值关联的键。 d = {'Car':['1','2','3'],
python - 如何在忽略索引的情况下使用 isin
我正在尝试检查另一个数据框中是否存在行。我没有加入/合并，因为它会产生重复，然后需要过滤掉重复可能也会过滤掉我想要保留的实际重复。示例: table1 = pd.DataFrame({'a':[1,
java - 如何在Java中使用Column.isin？
我正在尝试使用 Java 中的列表来过滤 Spark DataFrame。 java.util.List selected = ....; DataFrame result = df.filter(d
python - 对具有列表值的列使用 isin()
我有两个数据框。 Dataframe A 有一列由 list ids(命名项)值组成。数据框 B 有一列 int id 值(命名为 id)。数据框 A: date | items
python - 在多列中使用 isin
我正在尝试将 .isin 与 ~ 一起使用，这样我就可以根据 2 个数据集中的多列获取唯一行的列表。所以，我有 2 个 9 行的数据集:df1 是底部，df2 是顶部(抱歉，但我无法让它在下面同时显
python - ISIN 函数不适用于日期
d = {'Dates':[pd.Timestamp('2013-01-02'), pd.Timestamp('2013-01-03'), pd
python - Pandas isin() 函数无法正确识别数字匹配
isin() 给我奇怪的结果。我创建了以下 DataFrame: import pandas as pd import numpy as np test=pd.DataFrame({'1': np.l
python - 在二维和一维数组之间按元素使用 numpy isin
我有一个非常简单的场景，我想测试二维数组的两个元素是否(单独)是更大数组的成员 - 例如: full_array = np.array(['A','B','C','D','E','F']) sub_a
带有变量的 Python pandas ISIN
我可以帮助您使用 ISIN pandas 函数。基本上，我需要根据不同的标准按年汇总数据框中的数据。问题是我需要对数据进行许多聚合(例如国家名称、资助计划等)。为了方便起见，我试图在 for 循环中执
javascript - Sequelize 验证错误 (isIn)
这是我的模型: type: { type: Sequelize.STRING, defaultValue: 'text', allowNull: fal
python - Numpy 两个二维数组的逐元素 isin
我有两个数组: a = np.array([[1, 2], [3, 4], [5, 6]]) b = np.array([[1, 1, 1, 3, 3], [1, 2, 4
Pandas.Index.isin() 在处理大数据集时失败
这是一个例子创建一个包含 100M 相同行的表: >>> df = pd.DataFrame([('20170101', 'TULIP', 'FLOWER')] * 100000000, colum
python - 二维数组的按行 numpy.isin
这个问题已经有答案了: check for identical rows in different numpy arrays (7 个回答) 已关闭 2 年前。我有两个数组: A = np.arra
python - 基于两列的 Pandas isin
假设我有以下两个数据框: df = pd.DataFrame({'col1':['a','b', 'c'], 'col2': ['q', 'w', 'e']}) df1 = pd.DataFrame(
python - 二维数组的按行 numpy.isin
这个问题已经有答案了: check for identical rows in different numpy arrays (7 个回答) 已关闭 2 年前。我有两个数组: A = np.arra
python - 基于两列的 Pandas isin
假设我有以下两个数据框: df = pd.DataFrame({'col1':['a','b', 'c'], 'col2': ['q', 'w', 'e']}) df1 = pd.DataFrame(

首页

博学

6Ren·AI

商城

python - 我可以将 pandas.dataframe.isin() 与数字容差参数一起使用吗？