python - pandas - 根据满足条件的列合并行-6ren

python - pandas - 根据满足条件的列合并行

转载作者：太空狗更新时间：2023-10-30 01:32:04

33

4

我是 Pandas 的新手，我不知道最好的方法。

我有两个文件放在两个不同的数据框中:

>> frame1.head()
Out[64]:

    Date and Time           Sample  Unnamed: 2
0   05/18/2017 08:38:37:490 163.7   NaN
1   05/18/2017 08:39:37:490 164.5   NaN
2   05/18/2017 08:40:37:490 148.7   NaN
3   05/18/2017 08:41:37:490 111.2   NaN
4   05/18/2017 08:42:37:490 83.6    NaN


>>frame2.head()
Out[66]:
Date and Time               Sample  Unnamed: 2
0   05/18/2017 08:38:38:490 7.5 NaN
1   05/18/2017 08:39:38:490 7.5 NaN
2   05/18/2017 08:40:38:490 7.5 NaN
3   05/18/2017 08:41:38:490 7.5 NaN
4   05/18/2017 08:42:38:490 7.5 NaN

我需要将第 1 帧中的任何行与第 2 帧中的任何行“合并”，它们之间的间隔在一秒内。

例如，第一帧的这一行:

0   05/18/2017 08:38:37:490 163.7   NaN

在第 2 帧这一行的一秒内:

0   05/18/2017 08:38:38:490 7.5 NaN

所以当它们“合并”时输出应该是这样的:

0   05/18/2017 08:38:37:490 163.7 7.5 NaN NaN

换句话说，一行有它的时间被另一行替换，所有剩余的列只是附加

我想到的最接近的做法是:

    d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer')

>>d3.head()
    Date and Time           Sample_x    Unnamed: 2_x    Sample_y    Unnamed: 2_y
0   05/18/2017 08:38:37:490 163.7   NaN NaN NaN
1   05/18/2017 08:39:37:490 164.5   NaN NaN NaN
2   05/18/2017 08:40:37:490 148.7   NaN NaN NaN
3   05/18/2017 08:41:37:490 111.2   NaN NaN NaN
4   05/18/2017 08:42:37:490 83.6    NaN NaN NaN

但是，这不是条件合并..如果它们在一秒内，我需要合并，而不仅仅是完全相同。

我知道我可以将时间与类似的东西进行比较:

def compare_time(temp, sec=1):
   return abs(current - temp) <= datetime.timedelta(seconds=sec)

然后使用 .apply() 或其他东西......但我不知道如何将所有这些拼凑在一起

编辑: 看起来 pd.merge_asof 做得很好，但我还需要保留在最后一帧中不匹配/合并的行

编辑 2:

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
                     'sample':  np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
                     'sample':  np.arange(4) })

blah = pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )  \
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
blah

返回:

    datetime    sample_x    sample_y
0   2017-01-01 00:00:00.000 0   100.0
1   2017-01-01 00:00:00.300 1   100.0
2   2017-01-01 00:00:00.600 2   100.0
3   2017-01-01 00:00:00.900 3   100.0
0   2017-01-01 00:00:00.000 100 NaN
1   2017-01-01 00:00:01.000 101 NaN
2   2017-01-01 00:00:02.000 102 NaN
3   2017-01-01 00:00:03.000 103 NaN

注意它保留了原始行索引(零被列出两次)..

最佳答案

您可以按照@Wen 的建议使用merge_asof，但一定要指定tolerance 的可选值。还要考虑为匹配的 direction 设置选项值，它可以是“向后”(默认)、“最近”或“向前”。

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )

下面是对示例数据的更详细解释(请注意，我只是在创建新的示例数据，因为我只能看到您实际数据的前几行):

df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
                     'sample':  np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
                     'sample':  np.arange(4) })

df1
Out[208]: 
             datetime  sample
0 2017-01-01 00:00:00     100
1 2017-01-01 00:00:01     101
2 2017-01-01 00:00:02     102
3 2017-01-01 00:00:03     103

df2
Out[209]: 
                 datetime  sample
0 2017-01-01 00:00:00.000       0
1 2017-01-01 00:00:00.300       1
2 2017-01-01 00:00:00.600       2
3 2017-01-01 00:00:00.900       3

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
Out[210]: 
             datetime  sample_x  sample_y
0 2017-01-01 00:00:00       100       0.0
1 2017-01-01 00:00:01       101       3.0
2 2017-01-01 00:00:02       102       NaN
3 2017-01-01 00:00:03       103       NaN

请注意 merge_asof 执行左连接，因此您可以通过更改 df1 和 df2 的顺序获得不同的答案:

pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )
Out[218]: 
                 datetime  sample_x  sample_y
0 2017-01-01 00:00:00.000         0       100
1 2017-01-01 00:00:00.300         1       100
2 2017-01-01 00:00:00.600         2       100
3 2017-01-01 00:00:00.900         3       100

编辑添加:文档说 merge_asof 设计为左连接，但它似乎与真正的左连接不同，因为它排除了左数据框中的行那不匹配。要解决这个问题，您可以这样做:

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )  \
    .append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
Out[236]: 
             datetime  sample_x  sample_y
0 2017-01-01 00:00:00       100       0.0
1 2017-01-01 00:00:01       101       3.0
2 2017-01-01 00:00:02       102       NaN
3 2017-01-01 00:00:03       103       NaN

请注意，您可能需要根据您是否具有唯一索引和/或唯一列来调整 drop_duplicates。

关于python - pandas - 根据满足条件的列合并行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46059156/

33

4

0

文章推荐： python - python在哪里存储str的原始值

文章推荐： c# - ASP.NET Core WebApp 不是基于 Travis CI 构建的

文章推荐： c# - 根据另一个 DataGridView 的行过滤 BindingSource

文章推荐： Python方式来检查互联网广播流是否可用/直播

mysql - 满足 WHERE 子句中的所有条件条件
我想检索具有多个条件的数据，其中每个条件将在特定字段中包含特定关键字。表结构如下: sid nid cid 数据 50 7 5 ee 50 7 6 AA 50 7 8 ff 51 7 5 ee 51
prolog - 满足 Prolog 中的一组目标
在 Prolog 中，我经常通过提供模板(包含变量的结构)然后满足其上的一组约束来解决问题。一个简单的例子可能是: go(T) :- T = [_, _, _], member(cat
fpga - 满足 FPGA 设备要求的最佳方法
在设计 FPGA 系统时，我如何粗略估计给定任务所需的逻辑 block 数量？有人对我对这些常见设备的期望有一个粗略的数量级吗？串口使用 CRC32 的数据包解帧器 8 微核我看过 www.o
list - 满足 haskell 中大多数元素的函数
我需要编写一段代码，如果函数满足列表中的大多数元素，则返回 True，不满足其中的 false。例如:moreThan odd [1,2,3] 是 True，但是 moreThan odd [1,2,
javascript - 满足 componentWillReceiveProps 中未同时设置的多个条件
一旦满足三个条件，我需要使用 componentWillReceiveProps() 来调用我的组件中的方法。其中两个条件将当前 Prop 与下一个 Prop 进行比较，这两个条件通过 Ajax 请求
c# - 满足 subview 模型依赖关系
我正在构建一个主从表单。主视图模型构造细节 View 模型的实例。这些细节 View 模型有几个依赖项，需要用新类实例来满足。 (这是因为他们需要在独立于主虚拟机的数据上下文中运行的服务层。) 实现
javascript - 满足 PHP 条件时显示弹出窗口
我有以下项目，我已经使用了一段时间。正如您在运行 snnipets 后看到的那样，一切正常。 /* The dark background behind the dialogs */ .dialog-
javascript - 满足 2 个条件时启用按钮
我正在尝试找出解决此问题的方法: 我想要一个函数来检查文本字段是否填充了文本并且复选框是否被选中。当满足这些条件时，“提交”按钮将启用。如果启用“提交”按钮后不久，用户清除文本字段或取消选中复选框，则
java - 满足 Java 的返回要求
所以我相对较新，我有以下代码，我想知道如何制作这样我可以返回临时变量，同时满足java的返回要求。我希望返回临时值，但由于它位于 if-else block 内，因此从技术上讲，它不会在其外部初始化。
JavaScript - 满足 if/elseif 条件时更改类
我正在编写一个脚本，该脚本读取文本文件并根据 .txt 文件的内容更改 div 中的文本。但这不是我的问题。我不想要纯文本，背景颜色应该根据满足 if/elseif/else 函数的条件而改变。 v
swift - 满足 if let 构造中的多个约束之一
我想在 if let 构造中满足多个约束。我知道我们可以使用“,”(逗号)来解包多个值，但它们都必须成功解包。例如: var str: String? = "Hello" var x: Int? =
android - 在genymotion设备上安装应用程序，满足:“INSTALL_FAILED_CPU_ABI_INCOMPATIBLE”
当我在 genymotion 模拟设备上安装我的应用程序时，它无法很好地安装，在控制台上我得到“INSTALL_FAILED_CPU_ABI_INCOMPATIBLE”我尝试了另一个应用程序，它安装得
r - 查看两个变量的符号是否不同 - 满足 R 中的条件
因此，我试图根据数据帧的匹配条件来查看数据帧的两个变量(v1 和 v2)是否在其符号(正数或负数)中匹配变量(ID1==ID2)。示例数据框 - Trial.df: ID1 v1
gradle - 我是否必须明确检查/满足(Java)项目的所有传递依赖项的许可？
如果交付一个 Java 应用程序，它使用 gradle 依赖管理和许多来自 maven-central 的开源库，是否足以检查第一级 depedencies 的许可证(因为他们的依赖关系必须再次自动与
ceylon - 满足 'Iterable'接口(interface)不涉及Null
我正在尝试创建一个满足接口(interface) Iterable 的类“Gprogram” (这样我就可以在我的 Gprogram 中迭代 Gcommand)。但是，我只能使用类型 Iterable
mysql - POSTGRESQL:满足 2 个条件时对字段求和
我想知道是否可以获得一些帮助。我试图在查询中写入一个查询，我使用 3 个字段:ID、选项和金额。我需要对我的唯一 ID 进行分组，然后在该组中我需要按选项白色进行拆分，总计每个选项的金额。例如:编
ios - Jitsi - 满足 iOS 中的框架配置
如何在iOS swift项目中配置Jitsi-meet框架开启视频通话服务？最佳答案编辑:这也适用于 Xcode Version 12.2 (12B45b)在 Mac OS Big Sur 上。
javascript - jQuery 满足 'if' 未执行
我正在玩一些交互式菜单，目前有一个隐藏菜单，当按下一个按钮时，它会从右边出现，并将整个内容移到上面。有点像移动 facebook 应用程序。为了确定按钮应该将菜单滑出还是放回我使用 javascrip
python - 满足 "Hello World"局部最优的简单遗传算法
我的目标很简单，使用遗传算法重现经典的“Hello, World”字符串。我的代码基于此 post .代码主要包含4个部分: 生成具有多个不同个体的种群根据与target的比较，定义评估个体好坏的
algorithm - 预约调度算法(N人有N个忙闲槽，约束-满足)
问题陈述我们有一个雇主想要面试 N 个人，因此安排了 N 个面试时段。每个人都有这些时段的忙闲时间表。给出一个算法，如果可能的话将 N 个人安排到 N 个槽位，如果不可能则返回一个标志/错误/等。最

首页

博学

6Ren·AI

商城

python - pandas - 根据满足条件的列合并行