- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
命令行:
文件可以在 git-hub 上找到。
文件1:
https://raw.githubusercontent.com/felipelira/files_to_test/master/file1.txt
文件2:
https://raw.githubusercontent.com/felipelira/files_to_test/master/file2.txt
命令行: python teste2.py file1.txt file2.txt 测试
当转换存在/不存在矩阵中的表格文件时,我最终错过了一些数据。未绘制与种质不匹配的基因组。
我之前的结果是这样的(根据帖子 Convert tables to presence/absence matrix python - Solved 中的脚本和示例):
genome accession1 accession2 accession3 accession4 accession5
genome1 1 1 1 0 0
genome2 1 0 0 1 1
但我在前瞻性分析中需要其他基因组。我尝试将定义 df2 的 block 移动到 df1 之前:
asmbly_dict = sys.argv[1]
blast_result = sys.argv[2]
outName = sys.argv[3] + '.txt'
with open(blast_result, 'r') as file2:
col_genes = ['gene', 'accession']
df2 = pd.read_csv(file2, sep='\t', header=None, names=col_genes)
print df2
with open(asmbly_dict, 'r') as file1:
col_asmbly = ['gene', 'genome']
df1 = pd.read_csv(file1, sep='\t', header=None, names=col_asmbly)
df1['accession'] = df1['gene'].map(df2.set_index('gene')['accession'])
#print df1
g = df1.groupby('genome')['accession'].apply(list).reset_index()
testdf = g.join(pd.get_dummies(g['accession'].apply(pd.Series).stack()).sum(level=0)).drop('accession', 1)
#print testdf.to_string(index=False)
testdf.to_csv(outName, sep='\t', header=True, index=False)
打印 df2:
gene accession
0 gene1 accession1
1 gene2 accession2
2 gene3 accession3
3 gene4 accession1
4 gene5 accession4
5 gene6 accession5
打印 df1:
gene genome accession
0 gene1 genome1 accession1
1 gene2 genome1 accession2
2 gene3 genome1 accession3
3 gene4 genome2 accession1
4 gene5 genome2 accession4
5 gene6 genome2 accession5
6 gene7 genome3 NaN
7 gene8 genome3 NaN
8 gene9 genome4 NaN
打印 testdf:
genome accession1 accession2 accession3 accession4 accession5
genome1 1.0 1.0 1.0 0.0 0.0
genome2 1.0 0.0 0.0 1.0 1.0
genome3 NaN NaN NaN NaN NaN
genome4 NaN NaN NaN NaN NaN
以及 .csv 文件:
genome accession1 accession2 accession3 accession4 accession5
genome1 1.0 1.0 1.0 0.0 0.0
genome2 1.0 0.0 0.0 1.0 1.0
genome3
genome4
问题是:
如何在数字后不绘制小数点(1.0 -> 1)以及如何用零填充空值以打印和写入文件?
最佳答案
如果想使用原始解决方案,请添加 fillna
强制转换为 int
:
testdf = g.join(pd.get_dummies(g['accession'].apply(pd.Series).stack()).sum(level=0)).drop('accession', 1)
testdf = testdf.fillna(0).astype(int)
但更好的解决方案是使用 get_dummies
然后设置每个索引和每列的 max
(在示例中不需要,在实际数据中可能):
df1['accession'] = df1['gene'].map(df2.set_index('gene')['accession'])
df1 = pd.get_dummies(df1.set_index('genome')['accession']).max(level=0).max(level=0, axis=1)
或者使用crosstab
, clip_upper
并通过 reindex
添加缺失的类别:
df1 = (pd.crosstab(df1['genome'], df1['accession'])
.clip_upper(1)
.reindex(df1['genome'].unique(), fill_value=0))
或者:
df1 = (df1.groupby(['genome', 'accession'])
.size()
.clip_upper(1)
.unstack(fill_value=0)
.reindex(df1['genome'].unique(), fill_value=0))
<小时/>
print (df1)
accession1 accession2 accession3 accession4 accession5
genome
genome1 1 1 1 0 0
genome2 1 0 0 1 1
genome3 0 0 0 0 0
genome4 0 0 0 0 0
最后写入文件:
df1.to_csv(outName, sep='\t')
关于python - 比较表以创建存在/不存在矩阵,填充空而不带小数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49050710/
运行 PostgreSQL(7.4 和 8.x),我认为这是可行的,但现在我遇到了错误。 我可以单独运行查询,它工作得很好,但如果我使用 UNION 或 UNION ALL,它会抛出错误。 这个错误:
我试图为我的应用程序创建一个导航,使用抽屉导航我的 fragment 之一(HomeFragment)有一个 ViewPager,可容纳 3 个 fragment (Bundy Clock、Annou
以我目前正在开发的应用为例: - 它有一个包含多个项目的抽屉导航;现在有两个项目让我感兴趣,我将它们称为 X 和 Y。 X 和 Y 都在单击时显示包含 x 元素或 y 元素列表的 fragment 选
我有一个形状为 (370,275,210) 的 NumPy 数组,我想将其重新整形为 (275,210,370)。我将如何在 Python 中实现这一点? 370是波段数,275是行数,210是图像包
我们如何与被子 UIViewController 阻止的父 UIViewController(具有按钮)交互。显然,触摸事件不会通过子 Nib 。 (启用用户交互) 注意:我正在加载默认和自定义 NI
我是 Jpa 新手,我想执行过程 我的代码如下 private static final String PERSISTENCE_UNIT_NAME = "todos"; private static
与安装了 LAMP 的 GCE 相比,选择与 Google Cloud SQL 链接的 GCE 实例有哪些优势? 我确定 GCE 是可扩展的,但是安装在其上的 mysql 数据库的可扩展性如何? 使用
这个问题在这里已经有了答案: Value receiver vs. pointer receiver (3 个答案) 关闭 3 年前。 我刚接触 golang。只是想了解为 Calc 类型声明的两种
我不小心按了一个快捷键,一个非常漂亮的断线出现在日期上。 有点像 # 23 Jun 2010 -------------------- 有人知道有问题的快捷方式吗?? (我在 mac 上工作!) 在
我正在Scala中编写正则表达式 val regex = "^foo.*$".r 这很好,但是如果我想做 var x = "foo" val regex = s"""^$x.*$""".r 现在我们有
以下 XML 文档在技术上是否相同? James Dean 19 和: James Dean 19 最佳答案 这两个文档在语义上是相同的。在 X
我在对数据帧列表运行稳健的线性回归模型(使用 MASS 库中的 rlm)时遇到问题。 可重现的示例: var1 <- c(1:100) var2 <- var1*var1 df1 <- data.f
好的,我有一个自定义数字键盘,可以在标签(numberField)中将数字显示为 0.00,现在我需要它显示 $0.00。 NSString *digit = sender.currentTitle;
在基于文档的应用程序中,使用 XIB 文件,创建新窗口时其行为是: 根据最后一个事件的位置进行定位和调整大小 window 。 如果最后一个事件窗口仍然可见,则新窗口 窗口应该是级联的,这样它就不会直
我想使用参数进行查询,如下所示: SELECT * FROM MATABLE WHERE MT_ID IN (368134, 181956) 所以我考虑一下 SELECT * FROM MATABLE
我遇到一些性能问题。 我有一个大约有 200 万行的表。 CREATE TABLE [dbo].[M8]( [M8_ID] [int] IDENTITY(1,1) NOT NULL,
我在 jquery 中的按键功能遇到问题。我不知道为什么按键功能不起作用。我已经使用了正确的 key 代码。在我的函数中有 2 个代码,其中包含 2 个事件键,按一个键表示 (+) 代码 107 和(
我想显示音频波形,我得到了此代码,它需要.raw音频输入并显示音频波形,但是当我放入.3gp,.mp3音频时,我得到白噪声,有人可以帮助我如何使其按需与.3gp一起使用使用.3gp音频运行它。 Inp
我无法让 stristr 函数返回真值,我相信这是因为我的搜索中有一个 $ 字符。 当我这样做时: var_dump($nopricecart); 完整的 $nopricecart 值是 $0 ,我得
如果我有这样的循环: for(int i=0;i O(n) 次。所以do some执行了O(n)次。如果做某事是线性时间,那么代码片段的复杂度是O(n^2)。 关于algorithm - 带 If 语
我是一名优秀的程序员,十分优秀!