- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我们有大量来自各种网站的用户交互数据存储在 Cassandra 中,例如 cookie、页面访问、广告查看、广告点击等,我们希望对其进行报告。我们当前的 Cassandra 模式支持基本的报告和查询。但是,我们还想构建大型查询,这些查询通常涉及大型列族(包含数百万行)上的联接。
什么方法最适合这个?一种可能性是将数据提取到关系数据库(如 mySQL)并在那里进行数据挖掘。替代方法可能是尝试将 hadoop 与 hive 或 pig 一起使用来为此目的运行 map reduce 查询?我必须承认我对后者的经验为零。
有没有人经历过两者之间的性能差异?您会在实时 Cassandra 生产实例或备份副本上运行 map reduce 查询以防止查询负载影响写入性能吗?
最佳答案
根据我的经验,Cassandra 更适合需要实时访问数据、快速随机读取以及通常只处理大流量负载的进程。但是,如果您开始进行复杂的分析,您的 Cassandra 集群的可用性可能会受到明显影响。一般来说,根据我的观察,让 Cassandra 集群保持独立对您最有利,否则可用性就会受到影响。
听起来您需要一个分析平台,我绝对建议您将报告数据从 Cassandra 中导出,以便在离线数据仓库系统中使用。
如果您负担得起,拥有一个真正的数据仓库将允许您通过对多个表进行复杂的连接来执行复杂的查询。这些数据仓库系统广泛用于报告,以下是我认为主要参与者的列表:
最近获得很大动力的是 Amazon Redshift ,但它目前处于测试阶段,但如果您能得到它,您可以尝试一下,因为它看起来像一个可靠的分析平台,而且价格比上述解决方案更具吸引力。
使用 Hadoop MapReduce/Hive/Pig 等替代方案也很有趣,但可能无法替代 Hadoop 技术。如果您有 SQL 背景,我会推荐 Hive,因为它很容易理解您在做什么,并且您可以轻松扩展。实际上已经有与 Hadoop 集成的库,例如 Apache Mahout ,它允许您在 Hadoop 集群上进行数据挖掘,您绝对应该尝试一下,看看它是否符合您的需求。
为了给您一个想法,我使用的一种方法到目前为止一直运行良好,它是在 Hive 中预先聚合结果,然后在像 Netezza 这样的数据仓库中生成报告本身以计算复杂的连接。
关于hadoop - 基于 Cassandra 的数据分析和挖掘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14532230/
1.摘要 在数据可视化、统计绘图和图表生成领域,Python 被广泛使用,其中 Matplotlib 是一个极其重要的基础三方库。本博客旨在介绍 Python 及其三方库 Matplotlib
为什么要学习pandas? numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数
0. 数据说明 本项目所用数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。 这些数据包括有功功率、无功功率、电压、电流强度、分项计量1(厨房)、分项计量2(洗衣房
由于我现在不知道自己在做什么,所以我的措辞听起来很有趣。但是说真的,我需要学习。 我面临的问题是提出一种方法(模型)来估计软件程序的工作方式:即运行时间和最大内存使用量。我已经拥有了大量数据。此数据集
我在 PostgreSQL 中有一个表,其结构和数据如下: Question | Answer | Responses ------------------------------
numbers = LabelEncoder() State_Data['Quality'] = numbers.fit_transform(State_Data['Quality Paramet
我一直在尝试解决这个问题: 我有一组数据点,对应于一组时间值。即 values =[1,2,3,4,5,6,7,8,4] times = [0.1,0.2,0.3,0.4]... 等等,这是一个示例速
哔哔一下 雪中悍刀行兄弟们都看过了吗?感觉看了个寂寞,但又感觉还行,原谅我没看过原著小说~ 豆瓣评分5.8,说明我还是没说错它的。 当然,这并不妨碍它波播放量嘎嘎上涨,半个月25亿播放,平均一集一个亿
在 Pandas 中是否有任何可重用的数据分析代码,可以在 html 输出中给出结果。 我已经尝试过来自以下链接的命令,但没有一个输出是 html 格式。 https://kite.com/blog/
吴京近年拍的影视都是非常富有国家情怀的,大人小孩都爱看,每次都是票房新高,最新的长津湖两部曲大家都有看吗,第一步还可以,第二部水门桥也不差,截止目前已经36.72亿票房。 某眼评分9.6,某瓣评分7.
我有一个 .csv 文件,其中包含来自 eBay 拍卖的以下数据: auctionid - 拍卖的唯一标识符 bidtime - 出价的时间(以天为单位),从拍卖开始 投标人 - 投标人的 eBay
目录 1、爬虫 1.1 爬取目标 1.2 分析页面 1.3 爬虫代码 1.4 结果数据
我是 pyspark 的新手,我有这个示例数据集: Ticker_Modelo Ticker Type Period Product Geography Source Unit
我是一名优秀的程序员,十分优秀!