- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有两个文件:文件1.txt:
ID Gene ShortName TSSA ENS1S Gm16088 TSS82763B ENS2S Gm26206 TSS81070C ENS3S Rp1 TSS11475D ENS4S Gm22848 TSS18078E ENS5S Sox17 TSS56047,TSS74369
file2.txt:
ID Type ConditionB Normal 2J Cancer 1K Cancer 2A Normal 3
My desired output is:file1.txt then add the values from file2 that match the first column only:
ID Gene ShortName TSS Type ConditionA ENS1S Gm16088 TSS82763 Normal 3B ENS2S Gm26206 TSS81070 Normal 2C ENS3S Rp1 TSS11475 D ENS4S Gm22848 TSS18078 E ENS5S Sox17 TSS56047,TSS74369
hence, the Type and Condition columns of file2.txt will be added. if value is in file1 but not in file2, it will be replaced by just empty cell. if value is in file2 but not file1, it will be ignored.here is what I tried so far and it is not working:Inputting 2 data frames then trying to use data merge or join:
df1 = pd.read_csv("file1.txt", index_col=0, sep="\t")
df2 = pd.read_csv("file2.txt", index_col=0, sep="\t")
result2 = pd.merge(df1, df2, on=df1.index, how ="left")
result2.to_csv("Merged.xls", sep="\t")
我还尝试了 pd.concat 与轴 1,但这也不起作用。
然后我尝试了:
with open('file1.txt') as f:
r = csv.reader(f, delimiter='\t')
dict1 = {row[0]: row for row in r}
with open('file2.txt') as f:
r = csv.reader(f, delimiter='\t')
dict2= {row[0]: row for row in r}
keys = set(dict1.keys() + dict2.keys()) #i saw this on stackoverlow, i am not sure why it is sorting the keys by alphabetical order and i am unable to unsort (any side tip on that?)
with open('output.csv', 'wb') as f:
w = csv.writer(f, delimiter='\t')
w.writerows([[key, '\t',dict1.get(key),'\t', dict2.get(key)]
for key in keys])
这也没有给出所需的输出,并且字符串之间有很多“'”。有什么建议的方法吗?我知道如何合并到数据帧,如果它具有相同的行数和索引,但如果我只想使用第一个文件作为标准索引,我就无法做到这一点。我知道如何在 R 中使用合并函数然后 by.x 和 by.y 来完成此操作,但是 R 弄乱了我所有的 header 名称(上面的只是一个示例)。所以最好用Python来做。
最佳答案
使用 sep='\t'
读取文件无法正确解析,但 sep='\s+'
可以正确解析示例行,然后标准 merge
给出您想要的结果:
df1 = pd.read_csv('text1.txt', sep='\s+')
df2 = pd.read_csv('text2.txt', sep='\s+')
df1.merge(df2, on='ID', how='left')
ID Gene ShortName TSS Type Condition
0 A ENS1S Gm16088 TSS82763 Normal 3
1 B ENS2S Gm26206 TSS81070 Normal 2
2 C ENS3S Rp1 TSS11475 NaN NaN
3 D ENS4S Gm22848 TSS18078 NaN NaN
4 E ENS5S Sox17 TSS56047,TSS74369 NaN NaN
您当然也可以将“ID”移动到index
并使用.join()
、.concat()
或.merge(left_index=True, right_index=True)
并为每个 left
合并进行适当的设置。
关于python - 仅当存在公共(public)索引时如何组合两个数据帧,否则保留空单元格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34550313/
SELECT *, `o_cheque_request.member_id`, `o_cheque_request.wallet_id` FROM `o_cheque_request`, `o_mem
根据某一条件从数据库表中查询 『有』与『没有』,只有两种状态,那为什么在写SQL的时候,还要**SELECT count(*)**呢? 无论是刚入道的程序员新星,还是精湛沙场多年的程序员老白,都是一如
我试图找出一个文件是否存在,如果存在,验证css样式是否已经存在,如果不存在,将它们写在文件末尾... 我已经完成了这一切,但分 3 个步骤: 该文件是否存在? FileInfo fi= new Fi
我们正在开发即时消息传递应用程序,并且需要在用户的化身上用绿点显示用户 friend 的“状态”。 “状态”远远超出了“my_app_is_opened_and_on_focus”,这意味着(我猜可能
模式 Movie(title, year, director, budget, earnings) Actor(stagename, realname, birthyear) ActedIn(stag
我有一个正在尝试创建的 MySQL 触发器,但无法获得正确的语法。 触发器应该遍历一组关键字并将其与插入数据库的新帖子的标题进行匹配。如果找到匹配项,它应该将新帖子分配给该存储桶并更新存储桶的关键字集
我有 3 个表......用户、更新和碰撞。 我想向发出 api 请求的用户返回最新订单的 feed 更新,并提供显示 feed 中每个状态所需的所有数据。我还需要包括更新是否已被发出 api 请求的
我正在尝试呈现一个带有 UIView 的 UIViewController。 以下是我在 viewDidLoad 方法中尝试的代码。 //create the view controller UIVi
我正在努力弄清楚如何在不对 mysql 进行两次调用的情况下从一个表中检查两件事。 我有一个 Members 表。我想测试MemberID 列中是否存在某个值,以及PhoneNumber 列中是否存在
以下代码给出了一个没有 Do Compile 错误的循环: Loop Sheets("Snap").Rows(1).AutoFilter Field:=5, Criteria1:=List
是否可以通过检查“dig”的输出来检查域名的存在? 在绑定(bind)源中,我发现了这些常量: 0 DNS_R_NOEROR 1 DNS_R_FORMERR 2 DNS_R_SERVFAIL 3 DN
Controller 有问题 我在 Windows 上使用服务器,一切正常,但在互联网上我试图访问页面 social_apartament/beauty_life/并且找不到该页面,代码错误 404这
/** This is struct S. */ struct S(T) { static if(isFloatingPoint!T) { /// This version works
JVM 类型删除如何帮助 Clojure?没有它,Clojure 还能存在吗?如果 JVM 有具体化的类型会发生什么?也就是说,Clojure 将如何改变? 最佳答案 Clojure 根本不会有太大变
许多论文等提到对“system()”的调用是不安全且不可移植的。我不反对他们的论点。 不过,我注意到许多 Unix 实用程序都有一个等效的 C 库。如果没有,源可用于各种这些工具。 虽然许多论文和此类
在我的 Node js 应用程序中,我有一个用户登录 api。上面我在服务器端代码中创建了一个名为 customerid 的变量。现在,当用户身份验证成功时。我将他的 userid 值存储在我的 cu
我有一个工作资源管理器组,由 Ubuntu 14.04 虚拟机、网络接口(interface)、公共(public) IP 地址和存储帐户组成。我已经从这组资源中创建了一个模板。 当我尝试部署这组资源
我有一个函数createminor4(arr,锦标赛)它基本上将arr分成4组,每组8人,然后将它们一次交换到tourney 1组。从那里它插入四个{},其中有 4 个带有空数组的键。 我已经在 Ch
我有一个图表,其中有两个图例。我需要更改其中一个图例的点的大小。 我需要更改图例中“市场类型”的项目符号大小。我使用示例 here但不适用于我的图表。 我的代码如下: k <- ggplot(subs
我有 fiddle here展示我正在尝试做的事情。 我有一个动态生成的表,因此列可以按用户选择的任何顺序显示。因此,我尝试获取两个特定 header 的索引,以便可以将 CSS 类添加到这两列以供稍
我是一名优秀的程序员,十分优秀!