gpt4 book ai didi

hadoop - 如何在查询 Cassandra 时指示 Hive 使用分区/主键

转载 作者:可可西里 更新时间:2023-11-01 16:15:16 25 4
gpt4 key购买 nike

我们正在运行 Datastax Enterprise 4.0.1 并尝试针对 Cassandra 中的 CF 运行不同的 M/R 作业。我们这样设置了列族:

CREATE TABLE pageviews (
website text,
date text,
created timestamp,
browser_id text,
ip text,
referer text,
user_agent text,
PRIMARY KEY ((website, date), created, browser_id)
) WITH bloom_filter_fp_chance=0.001000 AND
caching='KEYS_ONLY' AND
comment='' AND
dclocal_read_repair_chance=0.000000 AND
gc_grace_seconds=864000 AND
index_interval=128 AND
read_repair_chance=1.000000 AND
replicate_on_write='true' AND
populate_io_cache_on_flush='false' AND
default_time_to_live=0 AND
speculative_retry='NONE' AND
memtable_flush_period_in_ms=0 AND
compaction={'min_sstable_size': '52428800', 'class': 'SizeTieredCompactionStrategy'} AND
compression={'chunk_length_kb': '64', 'sstable_compression': 'LZ4Compressor'};

Hive 的好处是它处理 CQL3“扁平化”,以抽象 Cassandra 的底层列/行存储机制。缺点似乎是它不使用 Cassandra 的分区键或主键来执行快速查找,例如

SELECT COUNT(1) WHERE website = "blah" AND date = "blah";

运行该 MR 作业似乎是在执行全表扫描,而不是预先缩小必须解析的键的范围。如果基于分区/主键的过滤有明显的好处,是否可以告诉 Hive 不要执行全表扫描?

旁注:在使用 Pig 时,它似乎可以并且确实使用 Cassandra 的分区/主键来执行快速查找。 Pig 的缺点是我们必须自己进行所有过滤和扁平化 - 极大地阻碍了创造就业机会的时间。

最佳答案

最好的办法是使用 Pig,并将 cql://与 CqlStorage() 一起使用,它会为您完成扁平化 Cassandra 数据的繁重工作,例如

grunt> pageviews = LOAD 'cql://ks/pageviews' USING CqlStorage();
grunt> describe pageviews;
grunt> pageviews: {website: chararray,date: chararray,created: long,browser_id: chararray,ip: chararray,referer: chararray,user_agent: chararray}

关于hadoop - 如何在查询 Cassandra 时指示 Hive 使用分区/主键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22792176/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com