python Pandas : compare two data-frames along one column and return content of rows of both data frames in another data frame-6ren

python Pandas : compare two data-frames along one column and return content of rows of both data frames in another data frame

转载作者：塔克拉玛干更新时间：2023-11-03 03:28:11

35

4

我正在处理两个 csv 文件并导入为数据框 df1 和 df2
df1 有 50000 行，df2 有 150000 行。
我想比较(遍历每一行)df2 的“时间”df1，求时间差，返回所有列的值对应相似行，保存在df3中(时间同步)
例如，35427949712(df1 中的“时间”)最接近或等于35427949712(df2 中的“时间”)，所以我想返回df1('velocity_x' 和 'yaw')和 df2('velocity' 和'yawrate') 并保存在 df3 中
为此，我使用了两种技术，如代码所示。
代码 1 需要很长时间才能执行 72 小时，这不是实践，因为我有很多 csv 文件
代码 2 给我“内存错误”并且内核死机。

如果考虑到计算时间、内存和功率(Intel Core i7-6700HQ，8 GB Ram)，我能得到更强大的解决方案，那就太好了

这是示例数据，

import pandas as pd
df1 = pd.DataFrame({'time': [35427889701, 35427909854, 35427929709,35427949712, 35428009860], 
                    'velocity_x':[12.5451, 12.5401,12.5351,12.5401,12.5251],
                   'yaw' : [-0.0787806, -0.0784749, -0.0794889,-0.0795915,-0.0795472]})

df2 = pd.DataFrame({'time': [35427929709, 35427949712, 35427009860,35427029728, 35427049705], 
                    'velocity':[12.6583, 12.6556,12.6556,12.6556,12.6444],
                    'yawrate' : [-0.0750492, -0.0750492, -0.074351,-0.074351,-0.074351]})

df3 = pd.DataFrame(columns=['time','velocity_x','yaw','velocity','yawrate'])

代码1

 for index, row in df1.iterrows():
    min=100000
    for indexer, rows in df2.iterrows():
        if abs(float(row['time'])-float(rows['time']))<min:
            min = abs(float(row['time'])-float(rows['time']))
            #storing the position 
            pos = indexer
    df3.loc[index,'time'] = df1['time'][pos]
    df3.loc[index,'velocity_x'] = df1['velocity_x'][pos]
    df3.loc[index,'yaw'] = df1['yaw'][pos]
    df3.loc[index,'velocity'] = df2['velocity'][pos]
    df3.loc[index,'yawrate'] = df2['yawrate'][pos]

代码2

df1['key'] = 1
df2['key'] = 1
df1.rename(index=str, columns ={'time' : 'time_x'}, inplace=True)

df = df2.merge(df1, on='key', how ='left').reset_index()
df['diff'] = df.apply(lambda x: abs(x['time']  - x['time_x']), axis=1)
df.sort_values(by=['time', 'diff'], inplace=True)

df=df.groupby(['time']).first().reset_index()[['time', 'velocity_x', 'yaw', 'velocity', 'yawrate']]

最佳答案

您正在寻找 pandas.merge_asof 。它允许您合并 2 DataFrame s 在 key 上，在本例中为 time ，而不要求它们完全匹配。您可以选择direction用于优先匹配，但在这种情况下很明显你想要 nearest

A “nearest” search selects the row in the right DataFrame whose ‘on’ key is closest in absolute distance to the left’s key.

需要注意的是，您需要为 merge_asof 排序去工作。

import pandas as pd pd.merge_asof(df2.sort_values('time'), df1.sort_values('time'), on='time', direction='nearest') # time velocity yawrate velocity_x yaw #0 35427009860 12.6556 -0.074351 12.5451 -0.078781 #1 35427029728 12.6556 -0.074351 12.5451 -0.078781 #2 35427049705 12.6444 -0.074351 12.5451 -0.078781 #3 35427929709 12.6583 -0.075049 12.5351 -0.079489 #4 35427949712 12.6556 -0.075049 12.5401 -0.079591
注意哪个DataFrame您选择作为左框架或右框架，因为这会改变结果。在这种情况下，我选择 time在 df1与 time 的绝对距离最近在 df2 .
如果你重复了on，你也需要小心右边的键 df因为对于精确匹配，merge_asof仅合并右侧最后排序的行 df向左df ，而不是为每个完全匹配创建多个条目。如果这是一个问题，您可以先合并确切的键以获得所有组合，然后将剩余的与 asof 合并。

关于 python Pandas : compare two data-frames along one column and return content of rows of both data frames in another data frame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50434160/

35

4

0

文章推荐： python - 美丽的序列

文章推荐： java - 从 JSONArray 输出中删除引号

文章推荐： Java Scanner 不等待用户输入

文章推荐： algorithm - 用线性供应流中的值填充嵌套结构

Java:if-return-if-return vs if-return-elseif-return
询问 unrelated question我有这样的代码: public boolean equals(Object obj) { if (this == obj) retur
javascript - Javascript : Nested Return Statement, return inside Return
在我之前的一个问题中 js: Multiple return in Ternary Operator我询问了有关使用三元运算符返回多个参数的问题。但是现在参数IsActveUser boolean(t
python - 使用 if-return-return 还是 if-else-return 效率更高？
假设我有一个带有 return 的 if 语句。从效率的角度来看，我应该使用 if(A > B): return A+1 return A-1 或 if(A > B): return
c - return 1, return 0, return -1 和 exit 的区别？
例如考虑以下代码: int main(int argc,char *argv[]) { int *p,*q; p = (int *)malloc(sizeof(int)*10); q
python - `with return .. return` 是无法访问的代码吗？
PyCharm 对这段代码发出警告，说最后一个返回是不可访问的: def foo(): with open(...): return 1 return 0 如果 ope
c# - ExceptionHandling : If controller method returns json then return json, if View then return Redirect
我想实现这样的目标: 如果在返回 Json 的方法中抛出异常，则返回 new Json(new { success = false, error = "unknown"}); 但如果方法返回 View
javascript - JS 模块 : Difference between directly returning a function in an object and returning a function in an object returning a function
它是多余的，但我正在学习 JS，我想知道它是如何工作的。直接从模块返回函数 let func1 = function () { let test = function () {
java - Spring MVC Controller : what is the difference between "return forward", "return redirect"和 "return jsp file"
我不明白我应该使用什么。我有两页 - intro.jsp(1) 和 booksList.jsp(2)。我为每一页创建了一个 Controller 类。第一页有打开第二页的按钮:
php - $this->return 和 return 的区别
我最近在 Joomla 组件(Kunena，更准确地说是 Kunena)中看到这段代码，那么使用 $this->return VS 简单的 return 语句有什么区别. 我已经用谷歌搜索了代码，但没
c# - 获取枚举器 : return or yield return
我的类实现了 IEnumerable。并且可以编译这两种方式来编写 GetEnumerator 方法: public IEnumerator GetEnumerator() { yield r
java - return() 和简单 return 之间的区别
我只是在编码，我想到了一个简单的想法(显然是问题)，如果我有一个像这样的函数: int fun1(int p){ return(p); } 我有一个这样的函数: int fun1(int p){
javascript - return[] 和 return() 的区别
这个问题在这里已经有了答案: What does the comma operator do in JavaScript? (5 个答案) 关闭 9 年前。 function makeArray
python - "Return"in Function only Returning Value
假设我写了一个 for 循环，它将输出所有数字 1 到 x: x=4 for number in xrange(1,x+1): print number, #Output: 1 2 3 4 现
c++ - return 语句中可以省略 return 关键字吗？
我最近在这个 Apache Axis tutorial example. 中看到了下面的一段代码 int main() { int status = AXIS2_SUCCESS; ax
javascript - return 后跟大括号和 return 后跟下一行大括号的区别
function a(){ return{ bb:"a" } } and function a(){ return { bb:"a" } } 这两个代码有什么区别吗，如果有请
javascript - return 和 return() 有什么区别？
function a() { return 1; } function b() { return(1); } 我在 Chrome 的控制台中测试了上面的代码，都返回了 1。 function c()
python - return，return None，根本不返回？
考虑这三个函数: def my_func1(): print "Hello World" return None def my_func2(): print "Hello World"
Test return value and return(测试返回值和返回)
这可能是一个愚蠢的问题，但我正在努力，如果有一种简明的方法来测试函数的返回结果，如果它不满足条件，则返回该值(即，传递它)。。现在来回答一个可能的问题，是的，我正在寻找的类似于例外提供的东西。然而，作
powershell - 为什么 (return) 和 return 不同？
我正在测试一个函数，并尝试使用 return 来做什么，并在 PowerShell 5.1 和 PwSh 7.1 中偶然发现了一个奇怪的问题，即 return cmdlet似乎不适合在团体中工作: P
python - "return"和 "return None"生成器中的行为差异
这个问题已经有答案了: Return in generator together with yield (2 个回答) Why can't I use yield with return? (5 个回

首页

博学

6Ren·AI

商城

python Pandas : compare two data-frames along one column and return content of rows of both data frames in another data frame

代码1

代码2