gpt4 book ai didi

web-services - 将 spark 数据加载到 Mongo/Memcached 以供 Web 服务使用

转载 作者:可可西里 更新时间:2023-11-01 10:43:13 26 4
gpt4 key购买 nike

我是 spark 的新手,有一个特定的工作流程相关问题。虽然这不是一个真正与编码相关的问题,但它更像是一个与 spark 功能相关的问题,我认为它在这里是合适的。如果您认为这个问题不适合 SO,请随时将我重定向到正确的站点。

所以这里是: 1. 我计划使用 Spark 的滑动窗口功能处理请求流并计算推荐模型。一旦计算出模型,Web 服务是否可以直接从 RDD 查询和使用这些数据?如果是这样,谁能指出我如何实现这一点的一些示例代码?

  1. 如果没有,我想将数据存储在 memcached 中,因为我存储的数据目前不是太大,它主要用于我使用 Spark 的内存迭代计算和流式支持目的,所以是可以将 RDD 数据加载到 memcached 中吗?我问是因为我只能找到 Spark 的 Mongo 连接器,而找不到 Memcached 连接器。

非常感谢任何帮助,尤其是具体的代码示例/链接。

提前致谢。

最佳答案

您不能以这种方式直接查询 RDD。将您的 Spark 作业视为流处理器。您可以做的是将更新后的模型推送到某个“存储”,例如数据库(使用自定义 API 或 JDBC)、文件系统或 memcached。您甚至可以从 Spark 代码中进行网络服务调用。

无论您做什么,请注意处理每批数据(包括 I/O)的时间要远低于您指定的间隔时间。否则,您将面临最终可能崩溃的瓶颈风险。

另一件需要注意的事情是,您的模型数据分布在集群中的多个 RDD 分区中(当然这是默认设置)。如果你的“记录”的顺序无关紧要,那么并行写出来就可以了。如果您需要按顺序写出特定的总订单(并且数据确实不大),请调用 collect 将它们放入驱动程序代码中的一个内存数据结构中(这将意味着网络流量在分布式作业中),然后从那里写入。

关于web-services - 将 spark 数据加载到 Mongo/Memcached 以供 Web 服务使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29459659/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com