- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含两列的 DataFrame
:sequence
和 id
例如:
import pandas as pd
data = {"id":["seq1", "seq2", "seq3"], "sequence":["ATCTGC", "AACTGC", "AACTCC"]}
df = pd.DataFrame(data)
(这是 +20k 序列的实际数据集的一个小例子)
我正在尝试以一种有效的方式获得序列距离矩阵。距离被理解为每个序列之间不同字符的数量。
为此,我需要在 sequence
列中应用所有值与所有值的函数。
我当前的代码如下所示:
def count_differences( seq, df ):
return df.apply(lambda x: sum(1 for i, j in zip(x["sequence"], seq) if i != j), axis=1)
df2 = df.apply(lambda x: count_differences( x["sequence"], df), axis=1)
df2 = df2.rename(df["id"], axis="columns").rename(df["id"], axis="rows")
# seq1 seq2 seq3
# seq1 0 1 2
# seq2 1 0 1
# seq3 2 1 0
这是应用中的应用。它工作正常,但在我拥有的所有序列上运行它时确实需要相当多的时间。
有没有更有效的方法呢?我一直在尝试查看是否可以使用 Series.map
来加快速度,但到目前为止我还没有找到任何解决方案。
最佳答案
这是一个想法,涉及到 numpy
。
有几个步骤,但由于底层工作是通过 numpy
数值数组完成的,这可能更有效。
import pandas as pd, numpy as np
data = {"id":["seq1", "seq2", "seq3"], "sequence":["ATCTGC", "AACTGC", "AACTCC"]}
df = pd.DataFrame(data)
a = np.array(list(map(list, df['sequence'])))
values = np.unique(a, return_inverse=True)[1].reshape(a.shape)
n = len(a)
d = {(i, j): np.sum(a[i]!=a[j]) for i in range(n) for j in range(n) if j > i}
res = np.zeros((n, n))
keys = list(zip(*d.keys()))
res[keys[0], keys[1]] = list(d.values())
res += res.T
df_res = pd.DataFrame(res, columns=data['id'], index=data['id'], dtype=int)
# seq1 seq2 seq3
# seq1 0 1 2
# seq2 1 0 1
# seq3 2 1 0
解释
numpy
数组,其中每个元素都是一个字母。np.unique
分解您的数组(即将每个字母与一个数字相关联)。np.sum
查找因式分解数组中各行之间的字母差异,并将结果添加到字典中。由于您的结果是三角形的,因此只需执行一半的计算。numpy
数组并添加逆数组使三角数组满。性能基准测试
我看到了大约 7 倍的性能提升。
%timeit original(df) # 3.32s
%timeit jp(df) # 461ms
import pandas as pd, numpy as np
data = {"id":["seq1", "seq2", "seq3"], "sequence":["ATCTGC", "AACTGC", "AACTCC"]}
df = pd.DataFrame(data)
df = pd.concat([df]*100)
def original(df):
def count_differences( seq, df ):
return df.apply(lambda x: sum(1 for i, j in zip(x["sequence"], seq) if i != j), axis=1)
df2 = df.apply(lambda x: count_differences( x["sequence"], df), axis=1)
return df2
def jp(df):
a = np.array(list(map(list, df['sequence'])))
values = np.unique(a, return_inverse=True)[1].reshape(a.shape)
n = len(a)
d = {(i, j): np.sum(a[i]!=a[j]) for i in range(n) for j in range(n) if j > i}
res = np.zeros((n, n))
keys = list(zip(*d.keys()))
res[keys[0], keys[1]] = list(d.values())
res += res.T
df_res = pd.DataFrame(res, columns=range(len(df['id'])), index=range(len(df['id'])), dtype=int)
return df_res
关于python - Pandas 系列 : compare values all vs. 所有,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49235538/
我经常有一个 Comparator 类型,而我需要一个 Comparable 类型,反之亦然。是否有可重用的 JDK API 可以相互转换?类似的东西: public static Comp
我怎么能写这个 Comparator sort = (i1, i2) -> Boolean.compare(i2.isOpen(), i1.isOpen()); 像这样(代码不起作用): Compa
请帮助她。我有一个错误 Collections.sort(var4, new Comparator() { public int compare(TreeMap var1, TreeMa
学习 Kotlin,我试图了解 Java 的 Comparator接口(interface)有效 - 主要是 compare() 函数,这样我就可以利用它。 我已经尝试阅读 compare() 的文档
我有以下程序 List numbers = Arrays.asList("10", "68", "97", "9", "21", "12"); Collections.sort(numbers, (
我想根据嵌套类的属性对如下所示的列表进行排序。 class Test { private NestedClass nestedClass; private AnotherNes
我很好奇“Beyond Compare”的算法是如何工作的? 我猜想他们使用了一种标准的(众所周知的?)算法来实现“字符与字符”的比较。你知道这个算法的名字吗?谢谢 最佳答案 Beyond Compa
这个问题已经有答案了: How does the sort() method of the Collection class call the Comparable's compareTo()? (1
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicates: difference between compare() and compareTo() Java: What i
我被要求为某个类实现Comparable或Compartor,我们称之为V。 假设我有一个 V 的 Collection 或 Set(还不确定,但我认为这并不重要)。 V 有一个方法,可以评估它的“权
我正在查看Java8中实现的Comparator.comparing方法的源代码 这是代码 public static Comparator comparing( Function
假设我有一个类 ClassA,它的属性是 ClassB: public ClassA { private String attr; private ClassB classB; } p
我有一个自定义比较器,其比较逻辑如下: List l = new ArrayList(); l.add("tendercoupon"); l.add("giftcard
我正在努力实现一个处理 Comparator 和 Comparable 接口(interface)的层次结构。我不清楚的几件事: 如果我将比较器添加到比较器链中,这段代码究竟意味着什么 chain.a
正在关注 this question关于按另一个列表对列表进行排序,我尝试做同样的事情 - 但由于某种原因它对我不起作用。我错过了什么? List nums = Arrays.asList(5
假设我有一个像这样的领域模型: class Lecture { Course course; ... // getters } class Course { Teache
在表达式 > 中像这样的签名 public static > foo(T x) { ... } T的描述递归地依赖于Comparable . 如果T延伸Comparable ,和Comparable延
所有“数字”比较器(例如 Comparer.Default 、 Comparer.Default 等)返回 -1 的原因是什么? , 0或 1 ,但是 Comparer.Default和 Compar
(如果这是重复的,请指出正确的答案!我搜索并阅读了几个(> 5)个相关问题,但似乎没有一个是正确的。还查看了泛型常见问题解答和其他来源...) 当一个集合类接受一个比较器时,它应该具有 Compara
SBCL 1.3.1 综上所述,a是一个列表,'(7),b通过setq sbcl This is SBCL 1.3.1.debian, an implementation of ANSI Common
我是一名优秀的程序员,十分优秀!