作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
对于压缩由 fasta 核苷酸序列组成的数据集,推荐的压缩算法是什么(.xz、tar.gz、tar.bz2 等)?
此类数据的推荐压缩机制是什么?
最佳答案
我看到 gzip
使用得最多,所以我推荐 gzip
,正如评论中提到的 CJR。这是与协作者最兼容的选项,即使不是最有效的(取决于您对效率的定义)。
在某些情况下,协作者和您可以安装专门的压缩工具,可能值得研究更高效的工具,例如,请参阅这篇论文,其中使用几种不同的指标(尤其是图 1)对其中许多工具进行了比较:
Kirill Kryukov、Mahoko Takahashi Ueda、So Nakagawa、Tadashi Imanishi,序列压缩基准 (SCB) 数据库——针对 FASTA 格式序列的无引用压缩器的全面评估,GigaScience,第 9 卷,第 7 期,7 月2020, giaa072, https://doi.org/10.1093/gigascience/giaa072 : https://academic.oup.com/gigascience/article/9/7/giaa072/5867695
关于compression - 生物信息学压缩核苷酸序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69776890/
下午好,我正在尝试使用 perl6 计算 DNA 序列中字母 A C T G 出现的次数。我尝试过其他方法,我只是 试图以另一种方式完成它。这是我想出的一些代码 use v6; my $default
我是一名优秀的程序员,十分优秀!