hadoop - Pig 集成Cassandra : simple distributed query takes a few minutes to complete. 这正常吗？-6ren

hadoop - Pig 集成Cassandra : simple distributed query takes a few minutes to complete. 这正常吗？

转载作者：可可西里更新时间：2023-11-01 16:34:39

25

4

我设置了 Cassandra + Pig/Hadoop 的测试集成。 8个节点为Cassandra + TaskTracker节点，1个节点为JobTracker/NameNode。

我启动了 cassandra 客户端并在 Cassandra 发行版的 Readme.txt 中创建了一些简单的数据:

  [default@unknown] create keyspace Keyspace1;
  [default@unknown] use Keyspace1;
  [default@Keyspace1] create column family Users with comparator=UTF8Type and default_validation_class=UTF8Type and key_validation_class=UTF8Type;
  [default@KS1] set Users[jsmith][first] = 'John';
  [default@KS1] set Users[jsmith][last] = 'Smith';
  [default@KS1] set Users[jsmith][age] = long(42)

然后我运行了 CASSANDRA_HOME 中列出的样本 pig 查询(使用 pig_cassandra):

grunt> rows = LOAD 'cassandra://Keyspace1/Users' USING CassandraStorage() AS (key, columns: bag {T: tuple(name, value)});
grunt> cols = FOREACH rows GENERATE flatten(columns);
grunt> colnames = FOREACH cols GENERATE $0;
grunt> namegroups = GROUP colnames BY (chararray) $0;
grunt> namecounts = FOREACH namegroups GENERATE COUNT($1), group;
grunt> orderednames = ORDER namecounts BY $0;
grunt> topnames = LIMIT orderednames 50;
grunt> dump topnames;

大约需要 3 分钟才能完成。

    HadoopVersion   PigVersion      UserId  StartedAt                FinishedAt                            Features
    1.0.0             0.9.1          root    2012-01-12      22:16:53     2012-01-12 22:20:22     GROUP_BY,ORDER_BY,LIMIT
Success!

Job Stats (time in seconds):
JobId   Maps    Reduces MaxMapTime      MinMapTIme      AvgMapTime      MaxReduceTime   MinReduceTime   AvgReduceTime   Alias   Feature Outputs
job_201201121817_0010   8       1       12      6       9       21      21      21      colnames,cols,namecounts,namegroups,rows        GROUP_BY,COMBINER       
job_201201121817_0011   1       1       6       6       6       15      15      15      orderednames    SAMPLER 
job_201201121817_0012   1       1       9       9       9       15      15      15      orderednames    ORDER_BY,COMBINER       hdfs://xxxx/tmp/temp-744158198/tmp-1598279340,

Input(s):
Successfully read 1 records (3232 bytes) from: "cassandra://Keyspace1/Users"

Output(s):
Successfully stored 3 records (63 bytes) in: "hdfs://xxxx/tmp/temp-744158198/tmp-1598279340"

Counters:
Total records written : 3
Total bytes written : 63
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0

日志中没有错误或警告。

这是正常的还是有什么问题？

最佳答案

是的，这是正常的，因为在 Hadoop 上运行 Map/Reduce 作业通常仅启动就需要大约 1 分钟。 Pig 根据脚本的复杂性生成多个 Map/Reduce 作业。

关于hadoop - Pig 集成Cassandra : simple distributed query takes a few minutes to complete. 这正常吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8846788/

25

4

0

文章推荐： http - 如何知道内容长度

文章推荐： c++ - 在 C++ 预处理器中拆分参数

文章推荐： delphi - TIEHTTP 组件不适用于 IE9

文章推荐： c++ - 防止参数包扩展中的数组衰减

Ruby 编程技巧 : simple yet not so simple object manipulation
我想创建一个对象，比方说一个饼图。 class Pie def initialize(name, flavor) @name = name @flavor = flavor e
simple.data - 有没有办法从 Simple.Data 记录实际执行的 SQL 查询？
我正在寻找类似于 Log property in Linq DataContext 的功能. 最佳答案所有执行的 SQL 都写入 Trace，因此您可以使用 TraceListener 访问。关于
django-simple-history - 如何获取 django-simple-history 中最后更改的对象？
使用 django-simple-history ，如何从我的模型中获取最后更改的对象？我尝试了 MyModel.history.most_recent()，它需要一个模型实例，因此可能会返回所选实
java - Eclipse 将什么视为 "simple getter"或 "simple setter"？
我定期使用 Eclipse 调试器，这一直困扰着我关于 IDE 的问题。步进过滤是一个非常宝贵的工具，这样我就不会进入没有源代码或者我根本不感兴趣的类。但是，Eclipse 在大多数情况下都没有正确处
python 网络x : simple way to get all simple paths from root to leaf
我基于有向图构建一棵树。源数据是 SQL 表中的一系列父子关系。它肯定是一棵树(无论如何我都会验证)。我想要一组从根到每片叶子的简单路径。数据是会计“科目表”中的标题，路径类似于“根 -> Asset
ember.js - Ember-cli-simple auth和ember-cli-simple-auth-torii如何使它们一起工作
我对如何在torii中使用ember-simple-auth有点困惑我正在使用ember-cli-simple-auth和ember-cli-simple-auth-torii 我得到下面提到的错误
java - Simple 2.6.7 处理枚举的方式与 Simple 2.6 不同吗？
考虑以下用 simple-xml 注释注释的枚举: @Root(name="days") public enum DaysOfWeek { SUNDAY("blue", 30), MO
使用java读取json文件时出现java.lang.ClassCastException : org. json.simple.JSONArray无法转换为org.json.simple.JSONObject错误
我有一个 json 文件，我正在 excel 中创建一些 vba 代码。我想用java读取这个json文件。为此，我编写了以下代码 try { Class.forName("org.j
java.lang.String 无法转换为 org.json.simple.JSONObject simple-json
我在尝试使用 google 的 simple-json 解析一个简单的 json 时遇到了一个奇怪的问题。这是我的代码，它不起作用: String s = args[0].toString(); J
java - org.json.simple.JSONArray 无法转换为 org.json.simple.JSONObject
我正在尝试解析下面的 json 文件: {"units":[{"id":42, "title":"Hello World", "positi
reactjs - 未找到规则 'simple-import-sort/sort' 的定义 simple-import-sort/sort
我正在使用 simple-import-sort eslint 插件进行 react 。我想我的 .eslintrc.js是对的，但我无法使这个特定的插件工作。我在文件的第一行收到以下错误: 未找到规
java - ClassCastException : org. json.simple.JSONArray 无法转换为 org.json.simple.JSONObject
我正在尝试解析子文件，但我不知道自己做错了什么(当然，我也不知道自己做对了什么)。文件.json [{ "arrOne":{ "one":"a", "two":"b",
LangChain simple llm.predict in Angular returns empty result(Lang Chain Simple llm.在角度预测返回空结果)
在我的Angel 16(独立的)应用程序中，我有一个简单的服务来测试LangChain和OpenAI。同样的代码在NodeJS应用程序中运行得非常好，然而，当从角度运行时，OpenAI返回的结果总是空
java - 使用 Simple-jndi (simple-jndi-0.18.2.jar) 调用 InitialContext() 时 Junit 测试失败
我正在尝试测试连接到数据库的 Web 应用程序 - 我的 Junit 代码不执行连接。设置按照 https://github.com/h-thurow/Simple-JNDI InitialCont
c# - 错误 CS0030 : Cannot convert type 'Simple.Amazon.ECS.ImageSet[]' to 'Simple.Amazon.ECS.ImageSet' in Amazon Web Service
我正在尝试制作一个小型应用程序，它可以通过 ISBN 在亚马逊上搜索一本书。我是 Amazon Web Service 的新手。我正在关注以下链接: http://flyingpies.wordpr
Java : Simple XML Serialization(simple-xml-2. 6.6.jar) 包含 & 的 XML 文件出错
我正在使用简单 XML 序列化 (simple-xml-2.6.6.jar) here将我的 XML 响应从 webservice 转换为 POJO 类。 XML 是:
Simple UI快速上手
Simple UI混合开发的必经之路~ Simple UI快速上手在混合开发的模式下，如果想使用django admin，又嫌弃后台不符合你的审美？Simple UI给你想要的答案，我不是打广告的~
Simple JSON开发指南
Simple JSON是Google开发的Java JSON解析框架，基于Apache协议。下载的文件是：json_simple.jar 例子1：很方便的方式，使用JSONValue
simple-form - 简单表格不在顶部显示错误
我有一个 simple_form 表单设置，它会很好地显示内联错误。我遇到过一些用户看不到这些错误的问题，并要求在非常长的表格顶部进行清晰的枚举。我使用了 Rails 教程中的代码设置:
simple-framework - 元素在类中没有匹配项
我正在使用简单的 XML 框架，只是重命名了一些 XML 布局，这些布局现在似乎不再起作用了。这是我的 XML: 2 0 1

首页

博学

6Ren·AI

商城

hadoop - Pig 集成Cassandra : simple distributed query takes a few minutes to complete. 这正常吗？