- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这个问题与 Pandas: How to combine two dataframes by closest index match? 相关,但不完全相同。
给定两个数据帧 df1[['A1', 'B1']]
和 df2[['A2', 'B2']]
,我想将它们组合起来,这样我最终得到一个数据帧 df3[['A2, 'B2', 'B1', 'A1']]
其中 'A1' 的所有值
已与最接近 'B1'
的 'B2'
匹配。下面是一个示例,您将在最后找到完整的数据示例和可重现的代码。
df1:(重复 B1 = -9.33)
A1 B1
0 -128.65 -12.30
1 -117.74 -11.98
2 -117.19 -11.91
3 -109.43 -10.03
4 -93.75 -9.33
5 -87.27 -9.33
6 -85.59 -5.96
7 -76.18 -5.51
df2:
A2 B2
0 -69.06 -12.64
1 -86.88 -12.12
2 -95.95 -11.35
3 -103.87 -10.67
4 -105.78 -9.63
5 -108.11 -9.20
6 -111.07 -9.06
7 -126.42 -6.37
请注意 df2['A2'] 是降序排列,而所有其他列都是升序排列。
所需输出:
A2 B2 B1 A1
0 -69.06 -12.64 -12.30 -128.65
1 -86.88 -12.12 -11.98 -117.74
2 -95.95 -11.35 -10.03 -109.43
3 -103.87 -10.67 -10.03 -109.43
4 -105.78 -9.63 -9.33 -87.27
5 -108.11 -9.20 -9.33 -87.27
6 -111.07 -9.06 -5.96 -85.59
7 -126.42 -6.37 -5.96 -85.59
注意事项:
df2['B2']=-12.12
的正确匹配是 df1['B1']=-11.98
以及相应的 df['A1' ]=-117.74
,因为 df2['B2']=-12.12
大于 df2['B2']=-12.30
并且 - 11.98
是本专栏中的下一步。
对于重复值 df1['B1'].iloc[4] = df1['B1'].iloc[5] = -9.33
, df1['A1'] = -87.27
是正确的匹配,因为它是最大值。
如果最好的解决方案包括将某些列设置为索引,我根本不介意!
这是一个可重现的代码片段:
#imports
import numpy as np
import pandas as pd
# Some sample data
np.random.seed(1234)
data1 = {'A1':sorted(np.random.normal(100, 20, 8)*-1),
'B1':sorted(np.random.normal(10, 2, 8)*-1)}
data2 = {'A2':sorted(np.random.normal(100, 20, 8)*-1,reverse = True),
'B2':sorted(np.random.normal(10, 2, 8)*-1)}
# Two dataframes
df1 = pd.DataFrame(data1).round(2)
df2 = pd.DataFrame(data2).round(2)
# Duplicate scenario 1: Duplicate A1 values
df1['B1'].iloc[4] = df1['B1'].iloc[5]
谢谢您的建议!
最佳答案
这是在第一次处理重复项之后的pd.merge_asof
。对 'A1'
进行排序,然后删除 'B1'
上的重复项,为每个唯一的 'B1 留下
:'A1'
的最大值'
import pandas as pd
#df2 = df2.sort_values('B2') # If not sorted by `B2`
pd.merge_asof(df2,
df1.sort_values('A1').drop_duplicates('B1', keep='last').sort_values('B1'),
left_on='B2', right_on='B1', direction='forward')
A2 B2 A1 B1
0 -69.06 -12.64 -128.65 -12.30
1 -86.88 -12.12 -117.74 -11.98
2 -95.95 -11.35 -109.43 -10.03
3 -103.87 -10.67 -109.43 -10.03
4 -105.78 -9.63 -87.27 -9.33
5 -108.11 -9.20 -85.59 -5.96
6 -111.07 -9.06 -85.59 -5.96
7 -126.42 -6.37 -85.59 -5.96
<小时/>
如果您需要保留原始顺序,请考虑重置索引,以便在合并后将其添加为列,然后将其设置回来并对索引进行排序。
关于python - Pandas:如何按相关列组合数据帧,没有完全匹配,并且可能存在内部重复?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55367405/
1。 Set 的 parallelStream 没有使用足够的线程。 Java8 parallelStream 不能完全并行工作。在我的计算机中,当任务数小于处理器数时,java8 集的 parall
我想将位置发送到 Google Geocoding API,因此我想用 + 替换文本中的任何空格或逗号(因为可以接收)。 例如,所有这些样本应返回 Glentworth+Ireland: Glentw
所以我需要为将要上传的图像文件生成较小的预览,并且我必须在每个文件名的末尾附加“_preview”。 目前我正在这样做: uploadFile.map((file) => { if (fi
我们可以用参数定义类型同义词,这在与实际类型一起使用时效果很好: type MyType t = t String String data Test a b = Test a b f :: MyTyp
给定一个包含一些 TGraphic 后代的 Delphi TPicture,我需要计算像素颜色和不透明度。我认为我必须为每个类提供不同的实现,并且我认为我已经涵盖了 TPngImage。 32 位位图
我正在调试 Powershell 项目。我正在使用 Import-Module 从我的 C# dll 加载 PS 模块,一切正常。尽管调用 Remove-Module 并不会完全卸载模块,因为 DLL
有没有办法在ElasticSearch中要求完整(尽管不一定精确)匹配? 例如,如果一个字段具有术语"I am a little teapot short and stout",我想匹配" i am
我正在尝试根据日期范围连接两个表。 表A格式为: ID CAT DATE_START DATE_END 1 10 2018-01-01 2020-12-31 2
我最近加入了一家公司,在分析他们的环境时,我注意到 SharePoint web.config 的信任级别设置为“完全”。我知道这绝对是一个糟糕的做法,并且希望 stackoverflow 社区能够帮
我构建了一个完全依赖 AJAX 的 php/js 应用程序,因此没有任何内容是静态的。 我正在尝试找到一种方法来转换基于内容的广告,该广告使用 AJAX 交付的内容作为关键字。 Google 的 Ad
我正在尝试根据日期范围连接两个表。 表A格式为: ID CAT DATE_START DATE_END 1 10 2018-01-01 2020-12-31 2
我熟悉 FileSystemWatcher 类,并使用它进行了测试,或者我使用快速循环进行了测试,并在目录中列出了类型文件的目录列表。在这种特殊情况下,它们是 zip 压缩的 SDF 文件,我需要解压
按照 Disqus 上的教程进行操作时,评论框不会呈现。从 disqus 上找到的管理员看来,它的设置似乎是正确的。 var disqus_config = function () { this
是否可以使用 Cython 将 Python 3 应用程序完全编译/链接为可执行格式(当然假设所有使用的模块都是 cythonable)。 我在 Linux 下工作,我希望获得一个依赖性尽可能小的 E
我有一个 C# 控制台应用程序,而不是运行预构建步骤(以获取 NuGet 包)。 当我调试这个时,我想传入一个参数并显示控制台。当我不调试它时,我不想看到它。我什至不希望它在那里闪烁一秒钟。 我找到了
我在 n 个节点上有一个完整的 19 元树。我标记所有具有以下属性的节点,即它们的所有非根祖先都是最年长或最小的 child (包括根)。我必须为标记节点的数量给出一个渐近界限。 我注意到 第一层有一
我正在阅读一篇关于 Java Volatile 关键字的文章,遇到了一些问题。 click here public class MyClass { private int years;
一本书中写道——“如果问题 A 是 NP-Complete,则存在解决 A 的非确定性多项式时间算法”。但据我所知,"is"——NP 完全问题的答案可以在多项式时间内“验证”。我真的很困惑。能否使用非
考虑以下问题: 有N个硬币,编号为1到N。 你看不到它们,但是给出了关于它们的 M 个事实,形式如下: struct Fact { set positions int num_head
我想制作一个包装数字类型的类型(并提供额外的功能)。 此外,我需要数字和包装器可以隐式转换彼此。 到目前为止我有: template struct Wrapper { T value;
我是一名优秀的程序员,十分优秀!