- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我不是专业程序员(我的领域是医学研究),但我对C/C++和各种脚本语言相当有能力。不久前我对 Lisp 很感兴趣,但一直没有时间认真学习它。短暂接触后R我决定在函数式编程语言上投入更多时间。
我想要 JVM 语言的实用性,因此将范围缩小到 Clojure 和 Scala。据我了解,两者都可以使用现有的 Java 库,并且可以将性能关键的代码委托(delegate)给 Java,具有相对同等良好的性能的潜力。
这些语言在我需要它们的应用程序空间中如何比较?生物信息学中是否有使用其中任何一个的现实项目?
现有的代码将是一个重要的优势,因为这将是良好的文档和相当温和的学习曲线。另外,两者的并发模型相比如何?
任何人都有什么显着的优点/缺点吗?
最佳答案
我个人可以保证 Clojure 是完成此类工作的绝佳工具。 (我相信 Scala 也很棒,只是我的经验较少)。
我的个人研究领域是预测建模/机器学习领域,计算量非常大 - 所以我认为它与生物信息学或生物统计学有很多相似之处。
我个人的方法/设置包括:
Incanter主要用作数据可视化工具。非常适合生成快速可视化,这些可视化在 REPL 中通常只是一行代码。还有很多统计和数值处理工具,我相信它们使用 Colt引擎盖下的图书馆。我不是 R 方面的专家,但我知道 Incanter 大致是“R 翻译为 Clojure/Lisp”。
根据需要利用相当多的 Java 库。其中一些是我自己的,例如我用 Java 编写的算法,以便从 JVM 中获得最佳的微调性能。但是您同样可以轻松地使用任何其他可用的优秀 Java 库,因为从 Clojure 调用 Java 非常简单(.methodName object param1 param2)
相当多的高阶函数可以自动化我的工作流程。例如,我有一个高阶函数,它将在指定的时间内在循环中运行任何类型的优化算法,然后生成每次迭代改进的 Incanter 图。这不是火箭科学,但很容易用几行 Clojure 编写代码。
永远不必真正担心性能。如果您愿意,您可以使 Clojure 运行得相当快(例如,使用类型提示、原始算术支持等),但通常这是无关紧要的,因为无论如何您都会将 99% 以上的周期花费在经过良好优化的库代码中。因此,“粘合”代码中的一点开销可以忽略不计 - 我觉得通过使用动态的、高级的函数式语言来工作,我在个人生产力方面获得了更多。
Clojure 的主要用途 concurrency features - 这一定是 Clojure 最强大的功能之一。我倾向于使用 STM 来编写具有互不干扰的事务的并发进程,然后在将来启动长时间运行的计算,以便我可以继续执行其他任务并等待结果通知。
缓慢增长的宏集合,可在需要时“扩展语言”。实际上,我使用宏的次数比我想象的要少(高阶函数通常是更好的选择)。但当您需要它们时,它们是无价的 - 这就是您真正欣赏 homoiconic language 值(value)的地方。 。由于它们有效地允许您向语言本身添加新语法,因此如果正确使用它们来构建您需要的 DSL,它们将非常强大。
简而言之 - 我认为作为研究人员,使用 Clojure 不会出错。
我可能不会使用它的一件事(目前)实际上是编写一个新的数值库 - 这可能会更好地在 Scala 或纯 Java 中完成,因为您可能希望采用更命令式/OOP 风格。
关于scala - 用于生物信息学/生物统计学/医学研究的 Clojure 或 Scala,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5250459/
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我在 BioJava 中搜索一种方法以从 PDB 文件中获取 Atom 序列。我看了 BioJava API,但对于 getAtomSequence() 它捕获了氨基酸。我在 BioJava 中尝试了
我有两个字符串 A 和 B,比如说 A = AATCGGATATAG B = CGATA 你们中的一些人可能知道两种类型的对齐: Global Alignment Local Alignment 但我
设计并编写一个可以检测跨膜域的程序,称为TMscanner.py。该程序应调用您编写的其他两个函数: getProteinRegion 应返回十个氨基酸窗口(最初抓取氨基酸 1-10,下次抓取 2-2
生物学家使用字母 A、C、T 和 G 的序列来模拟基因组。基因是基因组的子序列,起始于三联体 ATG 之后,结束于三联体 TAG、TAA 或 TGA 之前。此外,基因串的长度是3的倍数,并且该基因不包
我安装了生物信息学工具Picard 2.20在我的 HPC 集群中对我的基因组对齐文件运行一些指标。 Picard 2.20 需要 JDK 1.8,而我们的集群有 1.6,所以我安装了 JDK 1.8
我是一名优秀的程序员,十分优秀!