- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个包含独特蛋白质对的文件,即阳性数据集。我们称它为 infile
。下面是 infile 内容的示例:
Q9VRA8 A1ZBB4
Q03043 Q9VX24
B6VQA0 Q7KML2
条目以制表符分隔。随机数据集,我们称之为 outfile
,必须包含单个蛋白质的组合,其方式不能以任何顺序匹配 infile 的内容。例如,对于上面的第一行,随机输出文件不能包含以下对:
Q9VRA8 A1ZBB4
A1ZBB4 Q9VRA8
此外,生成的阴性数据集必须包含与阳性数据集中完全相同数量的蛋白质对。为了解决这个问题,我尝试了以下方法:
# Read original file
data = list(infile.readlines())
ltotal = len(data)
lwritten = 0
# Split original file in words
with open (infilename, 'rt') as infile:
pairs = set(frozenset(line.split()) for line in infile)
words = list(itertools.chain.from_iterable(pairs))
random.shuffle(words)
# Obtain pairs of words
with open(outfilename, 'wt') as outfile:
for pair in itertools.izip(*[iter(words)] * 2):
if frozenset(pair) not in pairs and lwritten != ltotal:
outfile.write("%s\t%s\n" % pair)
lwritten += 1
这行得通。然而,infile总共有856471行,outfile获得了不同范围的蛋白质对,最少有713000。
我怎样才能解决这个问题,使生成的对数与 infile 完全相同?另外,我无法解决反向配对顺序问题。对这两个问题有什么想法吗?
提前致谢。
最佳答案
要否决与顺序无关的对,我只需将两个顺序都放入我的对列表中:即我会添加:line.split()
和 line.split()[::-1]
到对组。
要生成更多对,而不是遍历单词列表,只需选择随机对(也许使用 random.choice
?),然后根据无效对列表否决它们(您可以还需要考虑生成“A1ZBB4 A1ZBB4”对并采取适当行动的情况)。只要你愿意,你就可以一直这样做。由于您需要确保输出仅包含唯一元素,因此可以在生成输出项时将其添加到否决列表(或作为单独的否决列表维护)。
如果你想减少内存占用,你可以设置:
pairs
是一组要否决的对,但每对都是内部排序的,即如果您读取“Q9VRA8 A1ZBB4”,您将其存储为“A1ZBB4, Q9VRA8”对。</li>关于Python算法从正数据集中获得随机的负数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11722972/
赏金:对于提供代码以使此子程序与负数一起工作的任何人,+50 信誉点。 我编写了一个 MIPS 程序来将华氏温度转换为摄氏温度。它打开自己的输出窗口(即 UART)并正确显示摄氏值。它在从 C 调用到
我得到了以下代码 # On va convertir en somme monétaire # We convert our integer into a way to read money
我得到了以下代码 # On va convertir en somme monétaire # We convert our integer into a way to read money
我使用以下 RegEx 基本上过滤掉任何文本,并接受数字 + 运算符。 ([-+]?[0-9]*\.?[0-9]+[\/\+\-\*])+([-+]?[0-9]*\.?[0-9]+) 所以它抓取 1+
我有一个查询,它计算我在查询中使用 union all 的平均值,以便获取我最终使用 max 函数的数据。 当联合返回结果时,如下所示:- col 1 col2 1 0
我有这样一个类: public class SpiralGenerator implements Iterator> { private void generate(int pos, E...
A = numpy.matrix([[36, 34, 26], [18, 44, 1], [11, 31, 41]]) X1 = numpy.matrix([[462
我有一个应用程序,其中有一个显示硬币 00 的 TextView ,一个按钮显示奖励视频广告,为用户提供 10 个硬币,还有一个购买按钮,将硬币减少 30 个。现在,当用户有 30 个硬币时,单击购买
话不多少,直接附上代码实例,仅供参考 ? 1
我有一系列正数和负数,我想将每个数字的绝对值增加一个,同时仍保持正数/负数。0.2 -> 1.2-0.3 -> -1.3我怎样才能做到这一点? 最佳答案 让我们尝试使用numpysign s=pd.S
我有这段代码,只允许在 keypress() 的输入字段中输入数字 if (e.which != 8 && e.which != 0 && (e.which 57)) { return fa
我试图用“-1”作为所有值填充二维数组。我正在使用的代码是: int c [] []=new int[4][4]; Arrays.fill(c,-1) 这会引发以下错误: Exception in t
在学校作业中,我们应该编写一个程序,该程序接受一个数字并将其分为三个部分:1. 检查数字是正数还是负数2. 整数(大小)3.小数部分 要求是应该有一个自己的函数,名为separate,具有输入和输出参
有没有什么方法可以在 C# 中执行整数除法(没有 float 或小数,我需要保持这个非常快)来向下舍入数字? 默认除法只是丢弃分数参数。考虑: 1 / 2 = 0 // That is correc
我正在使用 matplotlib 为报告生成图表,并指定我自己的样式表来指定文本格式以符合报告的指定文档样式。在我的 .mplstyle 样式表中,我按如下方式指定字体系列: font.family
在 C++11 中,如果我们尝试使用全局运算符 new 分配负大小的数组,它会抛出 std::bad_array_new_length,但是 C++98/C++03 呢?是 UB 还是会抛出 std:
我试过 scanf("%u",&number) 并且我输入了负数问题是当我 printf("%d",number) 我得到负数。我认为这会阻止我读取负数。scanf("%d",&number) 和 s
我的任务是解释一些看似奇怪的C代码行为(在x86上运行)。我可以轻松完成所有其他工作,但是这确实让我感到困惑。 代码段1输出-2147483648 int a = 0x80000000; int
js有问题吗? if("hello".indexOf("world")) { // I forgot to add > -1 here console.log("hello world");
我正在尝试使用 Antlr 4 设置一个简单的计算器。 语法: grammar calcGrammar; input : expression EOF; expression : MINUS
我是一名优秀的程序员,十分优秀!