hadoop - 大数据信号分析 : better way to store and query signal data-6ren

hadoop - 大数据信号分析 : better way to store and query signal data

转载作者：可可西里更新时间：2023-11-01 14:11:34

25

4

我要使用 Hadoop/Spark 进行一些信号分析，我需要有关如何构建整个过程的帮助。

信号现在存储在数据库中，我们将使用 Sqoop 读取它，并将转换为 HDFS 上的文件，其模式类似于:

<Measure ID> <Source ID> <Measure timestamp> <Signal values>

其中信号值只是由浮点逗号分隔的数字组成的字符串。

000123  S001  2015/04/22T10:00:00.000Z  0.0,1.0,200.0,30.0 ... 100.0
000124  S001  2015/04/22T10:05:23.245Z  0.0,4.0,250.0,35.0 ... 10.0
...
000126  S003  2015/04/22T16:00:00.034Z  0.0,0.0,200.0,00.0 ... 600.0

我们想编写交互式/批量查询:

对信号值应用聚合函数

SELECT *
FROM SIGNALS
WHERE MAX(VALUES) > 1000.0

选择峰值超过 1000.0 的信号。

在聚合上应用聚合

SELECT SOURCEID, MAX(VALUES) 
FROM SIGNALS
GROUP BY SOURCEID
HAVING MAX(MAX(VALUES)) > 1500.0

选择至少有一个信号超过 1500.0 的信号源。

在样本上应用用户定义的函数

SELECT *
FROM SIGNALS
WHERE MAX(LOW_BAND_FILTER("5.0 KHz", VALUES)) > 100.0)

选择经过 5.0 KHz 滤波后的值至少超过 100.0 的信号。

我们需要一些帮助，以便:

找到正确的文件格式，将信号数据写入 HDFS。我想到了 Apache Parquet。您将如何构建数据？
了解正确的数据分析方法:是创建不同的数据集(例如，使用 Spark 处理数据并将结果保存在 HDFS 上)更好，还是尝试在查询时从原始数据集执行所有操作？
Hive 是一个很好的工具来查询我写的那些吗？我们在 Cloudera Enterprise Hadoop 上运行，因此我们也可以使用 Impala。
如果我们生成与原始数据集不同的派生数据集，我们如何跟踪数据的沿袭，即知道数据是如何从原始版本生成的？

非常感谢!

最佳答案

1) 作为柱状格式的 Parquet 适用于 OLAP。 Parquet 的 Spark 支持已经足够成熟，可以用于生产。我建议将表示信号值的字符串解析为以下数据结构(简化):

 case class Data(id: Long, signals: Array[Double])
 val df = sqlContext.createDataFrame(Seq(Data(1L, Array(1.0, 1.0, 2.0)), Data(2L, Array(3.0, 5.0)), Data(2L, Array(1.5, 7.0, 8.0))))

保留 double 组允许定义和使用像这样的 UDF:

def maxV(arr: mutable.WrappedArray[Double]) = arr.max
sqlContext.udf.register("maxVal", maxV _)
df.registerTempTable("table")

sqlContext.sql("select * from table where maxVal(signals) > 2.1").show()
+---+---------------+
| id|        signals|
+---+---------------+
|  2|     [3.0, 5.0]|
|  2|[1.5, 7.0, 8.0]|
+---+---------------+

sqlContext.sql("select id, max(maxVal(signals)) as maxSignal from table group by id having maxSignal > 1.5").show()
+---+---------+
| id|maxSignal|
+---+---------+
|  1|      2.0|
|  2|      8.0|
+---+---------+

或者，如果你想要一些类型安全，使用 Scala DSL:

import org.apache.spark.sql.functions._
val maxVal = udf(maxV _)
df.select("*").where(maxVal($"signals") > 2.1).show()
df.select($"id", maxVal($"signals") as "maxSignal").groupBy($"id").agg(max($"maxSignal")).where(max($"maxSignal") > 2.1).show()
+---+--------------+
| id|max(maxSignal)|
+---+--------------+
|  2|           8.0|
+---+--------------+

2) 这取决于:如果您的数据大小允许以合理的延迟在查询时间内完成所有处理 - 那就去做吧。您可以从这种方法开始，稍后为慢速/流行查询构建优化结构

3) Hive 很慢，Impala 和 Spark SQL 已经过时了。有时选择并不容易，我们使用经验法则:如果您的所有数据都存储在 HDFS/Hive 中，Impala 适用于没有连接的查询，Spark 具有更大的延迟但连接可靠，它支持更多数据源并具有丰富的非 SQL 处理功能(如 MLlib 和 GraphX)

4) 保持简单:存储您的原始数据(主数据集)去重和分区(我们使用基于时间的分区)。如果新数据到达分区并且您已经生成了下游数据集 - 重新启动该分区的管道。

希望对你有帮助

关于hadoop - 大数据信号分析 : better way to store and query signal data，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36821903/

25

4

0

文章推荐： rdbms - 如何设计Hbase架构？

文章推荐： hadoop - 节点/hbase 不在 ZooKeeper 中

文章推荐： apache - 使用 Apache Mahout 对数据进行分类

文章推荐： join - 您如何建议使用 Hadoop 流执行 "Join"？

javascript - 类型错误 : store. getState 不是函数。 (在 'store.getState()' 中， 'store.getState' 未定义
我一直在尝试将 Redux 集成到项目中。我按照使用示例进行操作，但收到错误store.getState is not a function。所以我知道其他人也问过类似的问题，但情况略有不同。 R
app-store - 将新应用程序上传到 App Store
我正在尝试将我的第一个应用程序上传到 App Store。我已完成 iTunes Connect 所需的所有步骤，我的应用程序状态为“等待上传”。我相信下一步是使用 Application Load
app-store - App Store 中的名字是谁？
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
app-store - App Store 服务器到服务器通知的目的？
App Store 有所谓的“服务器到服务器”通知。也就是说，当您购买应用内功能时，Apple 服务器会向您服务器的回调方法(发送收据数据)发出 HTTPS 请求。问题是 - 收据数据中似乎没有用户
app-store - App Store:UIRequiredDeviceCapabilities问题
我已经将我的第一个应用程序上载到App Store，但是我没有放置我的App需要位置服务和wifi的UIRequiredDeviceCapabilities。结果:该应用程序没有像应做的那样开始寻找坐
app-store - iOS 8的64位强制条件是否提交到App Store
由于iOS 8将于本月发布，并且我的应用仅支持32位(因为第3个库仅兼容32位)，因此我不确定如果我将新版本的应用提交给我，则该应用的新版本是否会被拒绝App Store将于下个月发布，因为它不支持6
app-store - 捆绑ID应用程序，用于提交到App Store
我有一个让我有些困惑的问题。为了将我的应用提交到App Store，我必须输入Bundle ID后缀。如您所知，Bundle ID会获得Bundle ID后缀的确切名称(您在Bundle ID后缀上
app-store - App Store-更新是否会在批准后自动发布？
如问题所述，我想知道更新后的应用程序一旦获得批准，是否会自动发布到应用程序商店中？我的更新已完成并且已经过测试，由于需要几天的时间才能批准，因此我希望现在将其提交批准。同时，我需要在服务器上更改一些
app-store - 为 App Store 提交获取应用截图的最简单方法是什么？
获取应用程序提交到 Apple App Store 的屏幕截图的最简单方法是什么，需要包含的各种尺寸是多少？另外，是否允许状态栏？我相信我听说它不是，但是包括 Facebook 和 Quora 在内
app-store - 过期的 App Store 配置文件
我在 iTunes 商店中有一个应用程序，其分发证书(在 key 链访问中)将于明天到期。它是一年前生成的，尽管我最近更新了我的 iPhone 开发者计划，但我还没有更新任何证书或签名。当我将测试设
angular - ngrx/store init store 工作不正常
我的商店包含以下 reducer : export const centralStampState = { layoutState : layoutReducer, //this one is n
app-store - Apple App Store 提交等待时间
我即将将我的应用程序提交到 Apple App Store，并且我了解到 Apple 需要两周时间才能对其进行审核，然后才能上线。但是，在 iTunes Connect 的定价部分，它询问我什么时候发
app-store - 提交后可以在 App Store 中编辑哪些信息？
如果我的应用程序正在接受审核或已获得批准(因此处于 Ready For Sale 状态或同等状态)，我可以编辑哪些应用程序信息而无需提交应用程序的新版本？最佳答案据此Apple Documenta
app-store - Opera App Store-如何付款给开发者？
我已经在Opera管理控制台上进行了全面检查，看不到他们在哪里提到付款方式。他们说明何时制作，但没有说明。即Paypal，Cheque等。有人知道他们如何付款吗？最佳答案当金额达到200美元时，
app-store - Apple App Store 会在发布应用程序时重新压缩我的屏幕截图吗？
我上传了我的二进制文件并创建了屏幕截图。我做的所有屏幕截图都是 640x960，我将它们上传为 PNG。这背后的想法是，我应该以尽可能最好的质量把它交给他们，这样当他们将它们重新压缩成 320x480
app-store - 我如何使用Windows 8 Store App模拟器在台式PC中测试加速度传感器
我从Microsoft下载了Windows 8 app samples，并下载了这些示例之一加速度传感器示例我不知道如何测试它以计划使用此功能的软件？我没有水面设备，想知道只有一种方法可以做到吗？
app-store - App Store:二进制拒绝；缺少模拟账户信息
我正在为TestFlight上传第二个应用程序。第一次进展顺利，但这次却被拒绝了。 We have started the review of your beta app, but we are no
app-store - 我在哪里可以找到 App Store 新版本的提要？
不确定这是正确的论坛，如果不是，我提前道歉。某处是否有 App Store 新版本的提要？还是带有类别和发布日期的应用提要/列表？此列表已从 App Store 中消失，我想看看是否可以制作一个应
javascript - 从 JSON Store 的子集创建 Store
我有一个 JSON 存储，定义如下 var subAccountStore = new Ext.data.JsonStore({ autoLoad: true, proxy: { ty
app-store - 由于以编程方式向所有空间添加应用程序而导致 App Store 拒绝
我有一个提交到应用商店的应用被拒绝，原因是: 2.30 不符合 Mac OS X 文件系统文档的应用将被拒绝他们声称我的应用正在修改不受支持的 ~/Library/Preferences/com.a

首页

博学

6Ren·AI

商城

hadoop - 大数据信号分析 : better way to store and query signal data