- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我需要一些建议。我在数据挖掘领域的一家新公司工作。这基本上是一个研究项目的副产品。
无论如何,我们拥有大量非结构化数据,我们正在对这些数据进行各种 NLP、分类和聚类分析。
我们有数以百万计的消息,包括推特消息、博客帖子、论坛帖子、新论文、报告等……所有文本。总而言之,我们正在获取大约 300GB 以上的文本数据并且每天都在增长(每天增长大约 10GB)!
因此,我们需要在某个地方以一种我们可以实际处理和查询并获得相对实时结果的格式存储所有这些信息。
我们需要在某个地方存储这些数据的任何方式...
由于这是一家新公司,我们真的不能/不想为许可产品付费,例如VoltDB、Oracle等企业版遥不可及。
我认为这可能是非关系型“NoSQL”数据库的完美应用程序,例如 Apache Cassandra 或 Hadoop/HBase(列族)、MongoDB(文档)、VoltDB(社区版)或 MySQL。
目前所有数据都在 tsv 文本文件中,并在写入文件时进行处理。不用说这很痛苦,这意味着整个过程都卡在一个过程中,我们无法查询。它有效,但它的方式限制了我们可以用这个数据集做的事情的丰富性。
我希望有人可以通过任何方式分享他们使用上述任何工具的经验或对此用例(大量非结构化文本数据)的自然语言处理、分类、聚类、频率收集、实时分析的任何建议等等?
我最担心的是 MySQL 将无法处理 future 的庞大数据量。这东西将在今年年底达到 TB 范围,因此我们在某种程度上试图通过实现可扩展的解决方案来获得曲线和增长的领先地位,这将使我们能够轻松查询数据...
我认为像 HBase 这样的非 rel/NoSQL 列族数据库是最好的,对于我们一直添加新数据源(爬虫、流式 API 等)来说,如果我们有一个非结构化模型会容易得多。
任何帮助将不胜感激! hell 甚至可能有一份工作:)
干杯!
最佳答案
您需要仔细考虑需要在这些文档上运行哪些类型的查询。如果您的查询是基本的,那么 Cassandra 等可能很适合,但更丰富的类似 SQL 的查询是不可能的。最大的 Cassandra 部署大约为 150TB,因此您的数据量应该不是问题;但是 Cassandra 的性能可能有点矫枉过正,会牺牲查询的丰富性。
如果您只想要文本索引,那么也可以考虑 Lucene,因为我认为 Lucene 现在可以处理超过 100 GB/小时的批量索引,因此一夜之间索引 1TB 是可能的 - Lucene 现在声称增量索引的速度也相当...
关于mysql - 大数据集——NoSQL、NewSQL、SQL..?脑炒,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5931704/
在大规模数据集(Google,Facebook,linkedin)中使用非关系数据库(例如键值对存储)的好处显而易见。您认为中小型应用程序如何从使用非关系数据库中受益? 最佳答案 自60年代以来,IB
我正在努力弄清楚如何最好地为我的系统实现这一点……现在让我的头离开 RDBMS 空间…… 我当前数据库的一部分有三个表:Show、ShowEntry 和 Entry。 ShowEntry 基本上是 S
我计划使用 nosql 数据库作为我的 Web 产品的后端。我有几个非常基本的疑问。 1) 我在博客中读到 Nosql 数据库对于在线货币交易不太好,即数据完整性是最重要的。(我的产品有在线货币交易)
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 去年关闭。 Improve th
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
NoSQL 术语有 4 个类别。 键\值存储 面向文档 图 面向列。 从我的角度来看,所有这些数据建模都有相同的定义,有什么区别? Key\value 数据库以类似 OOP 中的对象的结构维护数据。访
我正在做一个小项目,我需要构建一个倒排索引并应用基于用户查询的相似性算法 - 基本信息检索。构建和搜索倒排索引的最佳 NoSQL 产品是什么? 谢谢,J 最佳答案 由于倒排索引是关于存储单词与其在文档
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
当使用SQL数据库时,有不同的方式来显示系统的流程。在银行中,您可以使用 ER 来显示其属性。并为其操作使用类图 UML。 有什么更好的方法可以为最终用户表示 NoSQL 数据库,如果有任何图表我可以
关系数据库使用键来完成,并且发生在 (a 非常令人放心的 ) 数据级别。文档数据库必须在应用程序级别强制执行。 RDB 确实强制执行参照完整性。如果两个人之间的关系,如果一个人被删除,关系将自动不复存
我目前正在尝试实现类似 Tumblr 的用户交互,例如转发、关注、关注者、评论、我当前关注的人的博客文章等。 还需要显示每篇博客文章的事件。 我坚持为数据库创建适当的架构。有几种方法可以实现这种功能(
我一直在对 Nosql(尤其是 RavenDB)进行一些研究,但我仍然不确定处理以下问题的最佳方法: 我有两个简单的对象,“用户”和“事件”。一个用户可以输入多个事件,一个事件可以由多个用户输入——标
刚刚看到这篇关于 NOSQL 模式的文章(不是我的)。从开发人员的角度来看,它涵盖了许多 NOSQL 实现模式(如散列和复制模式)。 总而言之,如果有人问自己这个问题,它非常有用: Where can
我现在在网上听到了很多关于 nosql 键/值数据库的信息。你能举个例子说明一个是做什么用的。什么样的真实世界数据最适合这类数据库? 最佳答案 我认为'What the heck are you ac
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我目前正在从事一个项目,其中包括出于性能原因将内容推荐器从 MySQL 迁移到 NoSQL 数据库。我们的团队一直在评估一些替代方案,例如 MongoDB、CouchDB、HBase 和 Cassan
我们正在为即将到来的项目评估 NoSQL。我倾向于以 RDBMS 的方式思考问题,并且在概念化缺乏规范化方面遇到了困难。 我知道在 NoSQL 中复制数据不被认为是错误的。我无法理解的是修复数据更改以
有人建议我研究键/值对数据系统来替换我一直在使用的关系数据库。 我不太了解的是这如何提高查询效率。据我了解,您将丢弃大量有助于提高查询效率的信息,只需将您的结构数据库变成一个长长的键和值列表? 我完全
我正在尝试找出 NoSQL KVP 或文档数据库中外键和索引的等效项。由于没有数据透视表(用于添加标记两个对象之间关系的键),我真的很困惑如何以对普通网页有用的方式检索数据。 假设我有一个用户,该用户
我打算开始学习 NoSQL。我是从《Professional NoSQL》这本书开始的。书中有使用 CouchDB、Cassandra、MongoDB 等的示例。我的疑问是我应该安装所有不同的风格来完
我是一名优秀的程序员,十分优秀!