- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有两个文件:文件1.txt:
ID Gene ShortName TSSA ENS1S Gm16088 TSS82763B ENS2S Gm26206 TSS81070C ENS3S Rp1 TSS11475D ENS4S Gm22848 TSS18078E ENS5S Sox17 TSS56047,TSS74369
file2.txt:
ID Type ConditionB Normal 2J Cancer 1K Cancer 2A Normal 3
My desired output is:file1.txt then add the values from file2 that match the first column only:
ID Gene ShortName TSS Type ConditionA ENS1S Gm16088 TSS82763 Normal 3B ENS2S Gm26206 TSS81070 Normal 2C ENS3S Rp1 TSS11475 D ENS4S Gm22848 TSS18078 E ENS5S Sox17 TSS56047,TSS74369
hence, the Type and Condition columns of file2.txt will be added. if value is in file1 but not in file2, it will be replaced by just empty cell. if value is in file2 but not file1, it will be ignored.here is what I tried so far and it is not working:Inputting 2 data frames then trying to use data merge or join:
df1 = pd.read_csv("file1.txt", index_col=0, sep="\t")
df2 = pd.read_csv("file2.txt", index_col=0, sep="\t")
result2 = pd.merge(df1, df2, on=df1.index, how ="left")
result2.to_csv("Merged.xls", sep="\t")
我还尝试了 pd.concat 与轴 1,但这也不起作用。
然后我尝试了:
with open('file1.txt') as f:
r = csv.reader(f, delimiter='\t')
dict1 = {row[0]: row for row in r}
with open('file2.txt') as f:
r = csv.reader(f, delimiter='\t')
dict2= {row[0]: row for row in r}
keys = set(dict1.keys() + dict2.keys()) #i saw this on stackoverlow, i am not sure why it is sorting the keys by alphabetical order and i am unable to unsort (any side tip on that?)
with open('output.csv', 'wb') as f:
w = csv.writer(f, delimiter='\t')
w.writerows([[key, '\t',dict1.get(key),'\t', dict2.get(key)]
for key in keys])
这也没有给出所需的输出,并且字符串之间有很多“'”。有什么建议的方法吗?我知道如何合并到数据帧,如果它具有相同的行数和索引,但如果我只想使用第一个文件作为标准索引,我就无法做到这一点。我知道如何在 R 中使用合并函数然后 by.x 和 by.y 来完成此操作,但是 R 弄乱了我所有的 header 名称(上面的只是一个示例)。所以最好用Python来做。
最佳答案
使用 sep='\t'
读取文件无法正确解析,但 sep='\s+'
可以正确解析示例行,然后标准 merge
给出您想要的结果:
df1 = pd.read_csv('text1.txt', sep='\s+')
df2 = pd.read_csv('text2.txt', sep='\s+')
df1.merge(df2, on='ID', how='left')
ID Gene ShortName TSS Type Condition
0 A ENS1S Gm16088 TSS82763 Normal 3
1 B ENS2S Gm26206 TSS81070 Normal 2
2 C ENS3S Rp1 TSS11475 NaN NaN
3 D ENS4S Gm22848 TSS18078 NaN NaN
4 E ENS5S Sox17 TSS56047,TSS74369 NaN NaN
您当然也可以将“ID”移动到index
并使用.join()
、.concat()
或.merge(left_index=True, right_index=True)
并为每个 left
合并进行适当的设置。
关于python - 仅当存在公共(public)索引时如何组合两个数据帧,否则保留空单元格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34550313/
我试图要求 test/unit 的新版本(即不是与 ruby 捆绑的版本) .根据 instructions我用 gem i test-unit 安装它.但是现在当我需要 test/unit我似乎
简短版本是: 我有一个 systemd 单元,我想在调用时检查脚本的返回代码: systemctl status service.service 长版本:我有一个 lsb init 脚本正是这样做的,
我正在使用反射动态创建一个类的实例,这工作正常,除非尝试通过单元测试执行此操作 - 我使用的是 MS 测试框架。 我收到熟悉的错误:“无法加载文件或程序集‘Assy’或其依赖项之一。系统找不到指定的文
我想知道测试网站“界面功能”的最佳实践是什么。 我对哪些方法可用于测试界面和动态生成的内容感兴趣。特别是,我很难弄清楚是否可以为需要用户交互的操作创建自动化测试,或者这是否只是浪费时间,我应该让一些
我有一个简单的 Python 服务,其中有一个无限执行某些操作的循环。在各种信号上,sys.exit(0) 被调用,这导致 SystemExit 被引发,然后如果可以的话应该进行一些清理。 在测试中,
我正在使用 OpenCV 2.4.2 这是 OpenCV 文档中的引文 C++: void HoughLinesP(InputArray image, OutputArray lines, doubl
忙于 C# 中的自动化测试用例,我们需要在每次测试后恢复数据库快照。问题是,当运行多个测试时它会失败,因为“其他用户正在使用数据库时无法更改数据库状态。” 我们使用 SqlConnection.Cle
我阅读了 C# 规范并用谷歌搜索了它,但一无所获。 我 99% 肯定 C# 中没有像单元命名空间指令这样的功能,但问题是:为什么?是否有惯用或技术原因? 这很方便,尤其是当我们的大部分文件都由单个命名
我目前正在尝试向我的应用程序(一个非常老的项目......评论说 iOS 2.0)添加单元测试(精确的应用程序测试)并且总是偶然发现 undefined symbols for architectur
我正在使用Delphi 7,并且有一个新单元要在我的项目中使用。我已经编译了新的。当我尝试通过将其添加到uses子句在项目中使用此单元时,出现错误,提示未找到.dcu文件。我还尝试将文件的完整路径放在
场景:我需要编写一个复杂的nHibernate查询,该查询将返回预计的DTO,但是我想使用TDD方法。该方法如下所示: public PrintDTO GetUsersForPrinting(int
您可以通过运行以下命令在事件 html 设置中显示 Jupyter 笔记本: $ jupyter nbconvert untitled.ipynb --to slides --post serve 有
如何在一个网站上拥有多个 AdSense 单元? Google 提供的唯一代码是按单位计算的。 (adsbygoogle = window.adsbygoogle || []).push({})
我刚刚开始为大量代码编写测试。有很多类依赖于文件系统,即读取 CSV 文件、读/写配置文件等。 当前测试文件存储在项目(这是一个 Maven2 项目)的 test 目录中,但由于多种原因该目录并不总是
我对 TDD 还很陌生,在单元测试方面也不是很老练,所以才有这个问题。我有这个用 PHP 编写的遗留函数 function foo(){ x = bar(); y = baz();
我创建了一个程序,在 Swing 窗口的一侧显示结果过滤选项,但默认情况下它们水平相邻显示,这浪费了我在 BorderLayout 的西侧分配的空间。我可以在构造函数或添加语句中传递任何内容来将它们堆
标题不好的借口:如果有人能更好地描述它,请做。 我有一个 WeakList类,它“基本上”是一个 List> (虽然不是字面意义上的派生自列表,但它应该对用户完全透明)。 现在的基本思想是“如果引用的
我正在尝试在 UITableView 上添加两个原型(prototype)单元。但是,我不知道如何验证是否能够为每个原型(prototype)“返回”正确的单元格。你们能帮我一下吗? func ta
我正在使用 CloudKit 作为数据库创建一个简单的待办事项列表应用程序。目前我可以添加和删除对象,但对编辑对象感到困惑。 编辑项目 Controller protocol EditItemCont
我正在针对以下任务训练 RNN:给定一个包含 30 个单词的序列,然后将该序列分类为二进制类。 在我的网络中拥有超过 30 个单元(LSTM、GRU 或普通 RNN)有好处吗?我在网上看到过很多例子,
我是一名优秀的程序员,十分优秀!