gpt4 book ai didi

java - 大规模机器学习——Python 还是 Java?

转载 作者:IT老高 更新时间:2023-10-28 20:56:04 24 4
gpt4 key购买 nike

我目前正在着手一个项目,该项目将涉及爬取和处理大量数据(数百个 gig),并挖掘它们以提取结构化数据、命名实体识别、重复数据删除、分类等。

我熟悉 Java 和 Python 世界的 ML 工具:Lingpipe、Mahout、NLTK 等。但是,当涉及到为如此大规模的问题选择平台时 - 我缺乏足够的经验来决定Java 或 Python。

我知道这听起来像是一个模糊的问题,但我正在寻找有关选择 Java 或 Python 的一般建议。 JVM 提供了比 Python 更好的性能(?),但是 Lingpipe 等库是否与 Python 生态系统相匹配?如果我使用这个 Python,那么在多台机器上扩展和管理它会有多容易?

我应该选择哪一个?为什么?

最佳答案

随着 Apache 不断发展壮大,生产出优秀的产品,例如用于搜索的 Lucene/Solr/Nutch、用于大数据机器学习的 Mahout、用于 Map Reduce 的 Hadoop、用于 NLP 的 OpenNLP,以及许多 NoSQL 的东西。最好的部分是代表集成的大“I”,这些产品可以相互集成,当然在大多数情况下它们(这些产品)是相互补充的。

Python 也很棒,但是如果您从 ASF 考虑以上内容,那么我会像 Sean Owen 一样使用 Java。 Python 将始终可用于上述内容,但主要类似于 Add on,而不是实际的东西。例如,您可以使用 Python 使用 Streaming 等进行 Hadoop。

为了利用一些非常流行的 Apache 产品,例如 Lucene、Solr 和 OpenNLP,以及其他流行的开源 NoSQL Java 产品,例如 Neo4j 和 OrientDB,我部分地从 C++ 切换到了 Java。

关于java - 大规模机器学习——Python 还是 Java?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9720894/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com