- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我需要对大约 100tb 的网络数据进行分类和聚类,我计划使用 Hadoop、Mahout 和 AWS。你推荐我使用什么数据库来存储数据? MySQL 会工作还是像 MongoDB 这样的东西会明显更快?一个数据库或另一个数据库还有其他优势吗?谢谢。
最佳答案
最简单和最直接的答案是将文件直接放在 HDFS 或 S3 中(因为您提到了 AWS)并直接将 Hadoop/Mahout 指向它们。其他数据库有不同的用途,但 Hadoop/HDFS 正是为这种大容量、批处理式分析而设计的。如果你想要一个更像数据库风格的访问层,那么你可以毫不费力地添加 Hive。底层存储层仍然是 HDFS 或 S3,但 Hive 可以让您对存储在那里的数据进行类似 SQL 的访问,如果您需要的话。
只是为了解决您提出的其他两个选项:MongoDB 非常适合低延迟读写,但您可能不需要它。我不了解 MySQL 的所有高级功能,但我猜 100TB 将很难处理,尤其是当您开始进行访问所有数据的大型查询时。它更适合传统的事务性访问。
关于mysql - 适合在 100 TB 数据上进行机器学习的数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18744826/
我有一个示例代码如下: #include template class B { public: B() : t1_(*this) {} void Test() { t1_.Test
所以我有以下代码,它给出了类型不匹配编译器错误,但我不知道为什么: [] member this.TheTest() = let tuple = (DateTime.Now, 10)
我遇到了一个问题,我们必须在 1 TB 的文件或字符串中找到最常用的 10 个单词。 我能想到的一个解决方案是使用哈希表(单词、计数)和最大堆。但是,如果单词是唯一的,则拟合所有单词可能会导致问题。我
System.out.format("%tB",12); 我应该从中得到一个“十二月”,但是我得到了一个很好的异常(exception) Exception in thread "main" java
我有数 TB 的文件和数据库转储,需要异地备份。 实现这一目标的最佳方法是什么? 我目前正在权衡 rsyinc 到 Amazon EBS 或获取设备(例如梭鱼)。 我调用我的一个 friend ,他说
我最近采访了一个在亚马逊工作的人,他问我:我将如何使用编程语言对 TB 级的数据进行排序? 我是一个 C++ 人,当然,我们谈到了合并排序,其中一种可能的技术是将数据拆分成更小的大小并对每个数据进行排
目前我有一个将字节转换为 TB 的函数。 我使用下面的公式进行转换。 const formatBytesToTB = (a, b = 2) => { if (a === 0) { retu
我正在尝试使用 Twitter Bootstrap 构建模板。 Here是活生生的例子。我遇到的问题是我可以将 dashboard div 放在 sidebar 菜单旁边,但我不知道我的错误在哪里?我
我刚发现一个有趣的博客,谈论一些面试问题。其中一个问题是: Given a very large file (multiple TB), detect what 4MB ranges has chan
转储大型(TB)数据库的最佳方法是什么?除了 mysqldump 之外还有其他更快/更有效的方法吗?这是为了压缩、解压缩,然后重新导入到另一台服务器上的另一个 mysql 数据库中。 最佳答案 如果您
我正在尝试为一个巨大的数据集(TB 级数据)计算分位数(可以通过一些精度保证或误差界限来近似)。我怎样才能有效地计算分位数。要求是 1) Can be computed efficiently (on
当乘以非常大的数字时,您使用基于 FFT 的乘法(参见 Schönhage–Strassen algorithm)。出于性能原因,我正在缓存旋转因子。问题是对于巨大的数字(千兆字节大小)我需要大小为
我正在尝试了解 QEMU 的区 block 链。我对每个执行的 TB 的分支方向有疑问。假设 TB#1 现在已经执行,并找到 next_tb (TB#2)。然后我们知道方向是 TB#1--->TB#2
如何获取 jqPlot y 轴值(以 KB/MB/GB/TB 为单位)。我有数据节点记录,例如 -不。一天中读取和写入的字节数,并通过 JqPlot 绘制它。但我希望我的 y 轴应包含带有 KB/MB
所以,我有几个大约 1 TB 的系统备份镜像文件,我想快速计算它们每个的哈希值(最好是 SHA-1)。 一开始我尝试计算 md5 哈希值,2 小时过去了,哈希值还没有计算出来(对于高达 1TB 的大文
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 8 年前。 Improv
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 8年前关闭。 Improve this questi
哪种数据库最适合以下场景: 我创建了一个 Java 应用程序,它将音频调用存储到本地文件系统。为了播放音频通话,该应用程序从数据库 (MySQL) 检索元数据,该数据库有一列包含本地 HD 上通话的位
我正在使用 Drupal 和 TB mega 菜单开发一个网站作为我的主菜单,当我使用 Devel 检查执行时间时,我发现 TB mega 菜单在以下查询中花费了大约 23978.991 毫秒: tb
我的 C 语言 (linux) 应用程序至少需要 1 TB 的内存。8 TB 将是最好的。我怎样才能在服务器中支持这样的内存容量?一种方法是构建我自己的 PCI 卡并放入 128 GB DDR4 模块
我是一名优秀的程序员,十分优秀!