gpt4 book ai didi

java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序

转载 作者:可可西里 更新时间:2023-11-01 15:37:14 29 4
gpt4 key购买 nike

我正在使用 Apache Cassandra (1.2) 和 Apache Map-Reduce 处理一些数据。目前,我使用 org.apache.cassandra.hadoop.cql3 中的 CqlPagingInputFormat。此提供程序使用 Thrift 来提取数据。 Thrift 似乎相当慢(300M 记录,在 3 节点集群中需要 8 多个小时才能读取),并且由于存在原生二进制协议(protocol),我想知道是否有人使用过它。

我对任何其他优化和配置调整不感兴趣 - 这是一个单独的问题。

我的问题是

  1. 是否有直接使用 Cassandra native 协议(protocol)的 map-reduce 输入格式化程序的实现?

  2. 如果没有,我自己编写的第一步是什么,例如使用 DataStax 驱动程序?

最佳答案

Cassandra 2.0.7 包含 CQL Hadoop 类的原生协议(protocol)模拟:

org.apache.cassandra.hadoop.cql3.CqlInputFormatorg.apache.cassandra.hadoop.cql3.CqlRecordReaderorg.apache.cassandra.hadoop.cql3.CqlConfigHelper

examples/hadoop_cql3_word_count 中的 WordCount 代码已更新为使用这些类。

引入这个的 JIRA 是 https://issues.apache.org/jira/browse/CASSANDRA-6311

关于java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23197729/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com