python - 仅当存在公共(public)索引时如何组合两个数据帧，否则保留空单元格-6ren

python - 仅当存在公共(public)索引时如何组合两个数据帧，否则保留空单元格

转载作者：太空宇宙更新时间：2023-11-03 17:06:26

25

4

我有两个文件:文件1.txt:

ID  Gene    ShortName   TSSA   ENS1S   Gm16088 TSS82763B   ENS2S   Gm26206 TSS81070C   ENS3S   Rp1 TSS11475D   ENS4S   Gm22848 TSS18078E   ENS5S   Sox17   TSS56047,TSS74369

file2.txt:

ID  Type    ConditionB   Normal  2J   Cancer  1K   Cancer  2A   Normal  3

My desired output is:file1.txt then add the values from file2 that match the first column only:

ID  Gene    ShortName   TSS Type    ConditionA   ENS1S   Gm16088 TSS82763    Normal  3B   ENS2S   Gm26206 TSS81070    Normal  2C   ENS3S   Rp1 TSS11475        D   ENS4S   Gm22848 TSS18078    E   ENS5S   Sox17   TSS56047,TSS74369

hence, the Type and Condition columns of file2.txt will be added. if value is in file1 but not in file2, it will be replaced by just empty cell. if value is in file2 but not file1, it will be ignored.here is what I tried so far and it is not working:Inputting 2 data frames then trying to use data merge or join:

 df1 =  pd.read_csv("file1.txt", index_col=0, sep="\t")
 df2 = pd.read_csv("file2.txt", index_col=0, sep="\t")

result2 = pd.merge(df1, df2, on=df1.index, how ="left")
result2.to_csv("Merged.xls", sep="\t")

我还尝试了 pd.concat 与轴 1，但这也不起作用。

然后我尝试了:

  with open('file1.txt') as f:
       r = csv.reader(f, delimiter='\t')
       dict1 = {row[0]: row for row in r}

  with open('file2.txt') as f:
       r = csv.reader(f, delimiter='\t')
       dict2= {row[0]: row for row in r}

  keys =  set(dict1.keys() + dict2.keys()) #i saw this on stackoverlow, i am not sure why it is sorting the keys by alphabetical order and i am unable to unsort (any side tip on that?)

 with open('output.csv', 'wb') as f:
       w = csv.writer(f, delimiter='\t')
       w.writerows([[key, '\t',dict1.get(key),'\t', dict2.get(key)]
           for key in keys])

这也没有给出所需的输出，并且字符串之间有很多“'”。有什么建议的方法吗？我知道如何合并到数据帧，如果它具有相同的行数和索引，但如果我只想使用第一个文件作为标准索引，我就无法做到这一点。我知道如何在 R 中使用合并函数然后 by.x 和 by.y 来完成此操作，但是 R 弄乱了我所有的 header 名称(上面的只是一个示例)。所以最好用Python来做。

最佳答案

使用 sep='\t' 读取文件无法正确解析，但 sep='\s+' 可以正确解析示例行，然后标准 merge 给出您想要的结果:

df1 = pd.read_csv('text1.txt', sep='\s+')
df2 = pd.read_csv('text2.txt', sep='\s+')
df1.merge(df2, on='ID', how='left')

  ID   Gene ShortName                TSS    Type  Condition
0  A  ENS1S   Gm16088           TSS82763  Normal          3
1  B  ENS2S   Gm26206           TSS81070  Normal          2
2  C  ENS3S       Rp1           TSS11475     NaN        NaN
3  D  ENS4S   Gm22848           TSS18078     NaN        NaN
4  E  ENS5S     Sox17  TSS56047,TSS74369     NaN        NaN

您当然也可以将“ID”移动到index并使用.join()、.concat()或.merge(left_index=True, right_index=True) 并为每个 left 合并进行适当的设置。

关于python - 仅当存在公共(public)索引时如何组合两个数据帧，否则保留空单元格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34550313/

25

4

0

文章推荐： c# - Linq 不存在于命名空间系统中

文章推荐： c# - c# 中的选项类型替代方案

文章推荐： ruby - Enter with no input 作为有效的 bool 值

文章推荐： Python实时键盘输入

internet-explorer - 仅 Windows 7，仅 IE，认为我的网站证书有问题？
我仅在 WIN7 PC 上收到此通知，仅使用 IE。 Firefox 总是很好，旧版 Windows 上的 IE 似乎也不错。这让我大吃一惊，我不知道为什么 IE 认为 SSL 证书有问题。有没有人以
wix - 升级期间未复制文件(仅)
概述对于我产品的新版本 v1.9.0，我创建了一个新的 MSI 安装程序。该应用程序的先前版本是 v1.7.0。卸载旧版本然后安装新版本工作正常。但是当我尝试使用 v1.9.0 安装程序更新旧版
仅 JavaScript 按钮按下时平滑滚动
该网站有一个全高图像启动。更多内容位于首屏下方，图像底部有一个“滚动”元素，以提示用户发现其余内容。单击后，我成功地使网站向下滚动 300 像素。然而，我想顺利地做到这一点。这是我当前的代码: w
javascript - 动态创建类名。仅
var i = 0; function Myfunc() { var newdiv = document.createElement('div'); var el = document
仅 JavaScript 图像悬停
这纯粹是为了学习目的；我知道 CSS 将是这种情况下的首选方法。我知道在 JavaScript 中，您可以使用内联事件处理将鼠标悬停在图像上，如下所示: 我知道您可以在您的站点中安装 jQuery
仅 curl 发布数据和标题
我只想从curl请求中获取 header curl -I www.google.com 一切都很棒。现在我想这样做，但也传递发布数据: curl -I -d'test=test' www.google
javascript - 仅 getElementsByName？
以下代码旨在更改一个字段的颜色: Untitled Document var bkColor =
仅 Grep 第一个匹配项并停止
我正在使用 grep 递归搜索目录，并使用以下参数希望只返回第一个匹配项。不幸的是，它返回了不止一个——事实上，我上次查看时返回了两个。似乎我有太多的争论，尤其是没有得到想要的结果。 :-/ # gr
仅 grep 当前目录
我只想搜索当前目录中的所有文件。我试过这个 grep foo * 但我收到此错误 grep: bar: Is a directory 我也尝试过这个 grep -r foo 但这也在搜索子目录。最佳
JavaFx如何打印文本(仅)收据？
我正在构建一个销售点应用程序，我想打印一张收据。问题是我使用的打印机无法打印纯文本的任何图形，我在 javafx 中只能找到使用 Print API 打印节点或使用像 jasper 这样都包含图形的报
仅 Java 操作系统
是否有任何操作系统在完全加载时仅提供用于控制台应用程序执行的 java 环境？理想情况下，它会在加载时自动启动程序最佳答案这是一个名称为:JavaOS 的东西从我的角度来看，更好的方法是安装一个
仅 MySQL 转储还原增量
在工作中，我们有一个每晚执行 mysql 数据转储的脚本。对于开发，我们通常需要使用来自最近转储的数据。一段时间以来，我们一直每天都进行数据库还原，但现在我们已经到了每天还原花费近一个小时的地步。有没
javascript - 需要禁用下拉菜单的淡出功能(仅)
我的移动模式菜单有问题。 onClick 它淡出。我想保留此设置，但我不希望它在单击下拉部分时淡出。这是链接:http://jsfiddle.net/zLLzrs6b/3/感谢您的帮助! html:
仅 css 在屏幕尺寸变化时调整图像大小的灵活布局
经过大量研究和反复试验，我谦虚地向各位 CSS 专家寻求帮助。这就是我需要的: 我有两张图片:titlelogo 和 newlogo。在全屏模式下，newlogo 需要在左边，titlelogo 在
javascript - 选择具有特定属性的标签(仅)
这个问题在这里已经有了答案: Exclusive CSS selector (3 个答案) 关闭 3 年前。我的文档结构如下: ... ... something something someth
html - 强制可变宽度表格列内容以最大宽度换行*仅*
我有一个具有以下要求的表: 所有列的宽度必须可变所有列的宽度不得超过必要的宽度所有单元格必须保留空白(white-space:pre/pre-wrap) 当(且仅当)超过最大定义宽度 (1000p
c++ - 具有特殊字符的数字的正则表达式**仅**
我正在寻找一个正则表达式来仅匹配具有特殊字符且大小为4+ 的数字字符串。我对此处发布的问题做了一些评论: 测试网站: http://regexlib.com/RETester.aspx 1- re
仅 CSS 灯箱解决方案
我正在为我的元素开发一个纯 CSS 灯箱解决方案。我用谷歌搜索了它，但到目前为止只找到了部分解决方案。我正在寻找这些功能: 显示任意宽任意高的内容(无固定高/宽) 垂直居中和水平居中如果内容宽度和
仅 CSS 网格布局
出于各种原因，我目前正在尝试使用 HTML/CSS 创建网格布局(我知道 Bootstrap 等，但在这种情况下没有选择，而且我无法添加标记元素)。我有以下代码(容器 div，每次都有一个带有 ul
仅 Java 字符串格式小数
有没有办法使用String.format()格式化 double 以仅获取小数？ System.out.println(String.format("%.2f", 1.23456d)); 正如预期的那

首页

博学

6Ren·AI

商城

python - 仅当存在公共(public)索引时如何组合两个数据帧，否则保留空单元格