gpt4 book ai didi

mysql - 大数据集——NoSQL、NewSQL、SQL..?脑炒

转载 作者:可可西里 更新时间:2023-11-01 06:33:21 26 4
gpt4 key购买 nike

我需要一些建议。我在数据挖掘领域的一家新公司工作。这基本上是一个研究项目的副产品。

无论如何,我们拥有大量非结构化数据,我们正在对这些数据进行各种 NLP、分类和聚类分析。

我们有数以百万计的消息,包括推特消息、博客帖子、论坛帖子、新论文、报告等……所有文本。总而言之,我们正在获取大约 300GB 以上的文本数据并且每天都在增长(每天增长大约 10GB)!

因此,我们需要在某个地方以一种我们可以实际处理和查询并获得相对实时结果的格式存储所有这些信息。

我们需要在某个地方存储这些数据的任何方式...

由于这是一家新公司,我们真的不能/不想为许可产品付费,例如VoltDB、Oracle等企业版遥不可及。

我认为这可能是非关系型“NoSQL”数据库的完美应用程序,例如 Apache Cassandra 或 Hadoop/HBase(列族)、MongoDB(文档)、VoltDB(社区版)或 MySQL。

目前所有数据都在 tsv 文本文件中,并在写入文件时进行处理。不用说这很痛苦,这意味着整个过程都卡在一个过程中,我们无法查询。它有效,但它的方式限制了我们可以用这个数据集做的事情的丰富性。

我希望有人可以通过任何方式分享他们使用上述任何工具的经验或对此用例(大量非结构化文本数据)的自然语言处理、分类、聚类、频率收集、实时分析的任何建议等等?

我最担心的是 MySQL 将无法处理 future 的庞大数据量。这东西将在今年年底达到 TB 范围,因此我们在某种程度上试图通过实现可扩展的解决方案来获得曲线和增长的领先地位,这将使我们能够轻松查询数据...

我认为像 HBase 这样的非 rel/NoSQL 列族数据库是最好的,对于我们一直添加新数据源(爬虫、流式 API 等)来说,如果我们有一个非结构化模型会容易得多。

任何帮助将不胜感激! hell 甚至可能有一份工作:)

干杯!

最佳答案

您需要仔细考虑需要在这些文档上运行哪些类型的查询。如果您的查询是基本的,那么 Cassandra 等可能很适合,但更丰富的类似 SQL 的查询是不可能的。最大的 Cassandra 部署大约为 150TB,因此您的数据量应该不是问题;但是 Cassandra 的性能可能有点矫枉过正,会牺牲查询的丰富性。

如果您只想要文本索引,那么也可以考虑 Lucene,因为我认为 Lucene 现在可以处理超过 100 GB/小时的批量索引,因此一夜之间索引 1TB 是可能的 - Lucene 现在声称增量索引的速度也相当...

关于mysql - 大数据集——NoSQL、NewSQL、SQL..?脑炒,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5931704/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com