- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
已解决:
原来是我的UDTF出错了。我找到了一个修复程序,但我不太明白为什么它会起作用。当初我实现UDTF的时候,Eclipse提示initialize
is deprecated。但是如果我跳过它就会出错,所以我还是实现了它。我在那个方法里放了一个变量初始化,猜测init只做一次。该 jar 适用于一些更简单的场景,但如果我要将 UDTF 输出与 UDF 一起使用,则使用 UDF 输出来做一些事情,例如作弊的 cluster by
或 insert
,我得到了前面提到的错误。我的工程师 friend 发现 initialize
实际上被执行了不止一次。所以我只是将初始化放在 process
中,使用 if
检查变量是否为 null,如果是则初始化它。然后一切正常,我的作弊也奏效了。尽管如此,如果有人能给我一个解释,我将不胜感激。
以下是我原来的问题:
我知道我不应该在 UDTF 之后使用 cluster by
,所以 select myudtf("stringValue") cluster by rand()
不起作用。
但是由于我的udtf每小时输出7000+行并且还在增长,所以我确实需要将后续处理分发到我所有的hadoop集群从属单元。
而且我想如果不使用 cluster by rand()
就无法做到这一点,所以我尝试了以下作弊:
首先,我用另一个表来包装结果,select key from (select myudtf("stringValue") as key) t limit 1;
它给出了正确的结果,
OK
some/key/value/string
Time taken: 0.035 seconds, Fetched: 1 row(s)
然后我添加 cluster by
部分,select key from (select myudtf("stringValue") as key) t cluster by rand() limit 1
,然后我得到错误:
WARNING: Hive-on-MR is deprecated in Hive ...
....
Task with the most failures(4):
-----
Task ID:
task_....
URL:
http:....
....
-----
Diagnostic Messages for this Task:
Error: tried to access class sun.security.ssl.SSLSessionContextImpl from class sun.security.ssl.SSLSessionContextImplConstructorAccess
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1 Reduce: 1 HDFS Read: 0 HDFS Write: 0 FAIL
Total MapReduce CPU Time Spent: 0 msec
我这样做是为了欺骗 hive 以将临时表 t
视为“普通”表,我可以将 cluster by
应用于该表,希望它将分发所有 hadoop 从站的工作负载,但不幸的是,hive 足够聪明,可以识破我尝试的拙劣技巧。
那么,有人可以帮我澄清我的误解,或者给我一些正确的方法吗?
仅供引用,我向我公司一位经验丰富的工程人员寻求帮助,他认为这可能是一个更深层次的系统级错误,他在下类前尝试跟踪问题 20 分钟左右,他确实发现了一些库版本问题但终究无法解决问题。 ......我只是猜想这一定是我做错了什么。
最佳答案
原来是我的UDTF出错了。我找到了一个修复程序,但我不太明白为什么它会起作用。当初我实现UDTF的时候,Eclipse提示initialize
is deprecated。但是如果我跳过它就会出错,所以我还是实现了它。我在那个方法里放了一个变量初始化,猜测init只做一次。该 jar 适用于一些更简单的场景,但如果我要将 UDTF 输出与 UDF 一起使用,则使用 UDF 输出来做一些事情,例如作弊的 cluster by
或 insert
,我得到了前面提到的错误。我的工程师 friend 发现初始化实际上被执行了不止一次。所以我只是将初始化放在 process
中,使用 if
检查变量是否为 null,如果是则初始化它。然后一切正常,我的作弊也奏效了。尽管如此,如果有人能给我更具体的解释,我将不胜感激。
关于hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42812744/
从 Wildfly 8.2.1.Final 升级到 Wildfly 9.0.1.Final 后,我们开始收到很多警告,如下所示: WARNING [org.jgroups.protocols.TCP]
如果是,在哪里可以找到?!根据this infoq 条目,他们已经开源了。但是现在,他们的网站上没有这样的产品。 最佳答案 本页,http://terracotta.org/dl/oss-downlo
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicates: Difference between clustered and nonclustered index What
我将 H2 数据库用于包含大量时间序列的环境数据。时间序列只是定期(例如每小时一次)记录在数据库中的传感器的测量值。 表中存储的数据: CREATE TABLE hydr (dt timestamp
Cluster 和 MPP super 计算机架构之间有什么区别? 最佳答案 在集群中,每台机器在内存、磁盘等方面都在很大程度上独立于其他机器。它们使用普通网络上的一些变体相互连接。集群主要存在于程序
我正在尝试为 akka 集群构建一个大脑 split 解析器。但是很难模拟某些节点无法从原始集群的其余部分访问并形成自己的集群的场景。 不能通过停止和重启节点来完成,因为新启动的节点不是同一个节点,因
我正在尝试在我的应用程序中使用集群。但是,在导入语句中,我得到“无法解析导入 com.google.maps (clustering.Cluster)”。 此外,在使用 ClusterManager
我想知道 Hive 中 Cluster By 和 CLUSTERED BY 的主要区别是什么。 Cluster By 用于对表进行分桶。并且会用到Hash函数。 CLUSTERED BY 用于在 re
我有3台机器,为redis集群创建了6个节点,我几个月前创建成功了,但现在它掉线了,我尽力修复它,但它不起作用,所以我清理所有数据并重新创建它从零开始,当我使用以下命令创建集群时,它在这里阻塞,等待节
我尝试使用 swarm 和 consul 设置 docker 集群。我有 manager、host1 和 host2。 我在管理器上运行 consul 和 swarm manager 容器。 $ do
如果我不使用 DTW 作为距离度量,那么 tslearn.clustering.TimeSeriesKMeans 和 sklearn.cluster.KMeans 是否等同? 如果不是,谁能告诉我这两
我正在研究 Flink 1.9.1 的 docker/k8s 部署可能性。 我正在阅读/观看 [1][2][3][4]。 目前我们确实认为我们会尝试采用作业集群方法,尽管我们想知道这方面的社区趋势是什
我可以使用一些关于 R 中方法的建议来确定最佳集群数,然后用不同的统计标准描述集群。我是 R 的新手,对聚类分析的统计基础有基本的了解。 确定簇数的方法:在文献中,一种常用的方法是所谓的“肘部准则”,
我有一个查询无法执行,并显示“由于文件组“DEFAULT”中磁盘空间不足,无法为数据库“TEMPDB”分配新页面”。 在排除故障的过程中,我正在检查执行计划。有两个标记为“聚集索引扫描(聚集)”的昂贵
我刚刚下载了 Elasticsearch 发行版并运行了它。 curl 'localhost:9200' { "status" : 200, "name" : "cbs", "clu
我有一个集群,其“cluster_ Purpose”设置为“dev_test”。我想将其更改为“生产”。在文档中找不到任何内容。 最佳答案 回答我自己的问题。这是不可能的。 关于Azure ML :
如何将主聚集索引更改为非聚集索引。 (作为“辅助”表,我想对“标题”表的外键列使用聚集索引。) 这对我不起作用(错误似乎是合理的:) DROP INDEX ClientUsers.PK_ClientU
我注意到,当使用 sklearn.cluster.KMeans 从方法 .cluster_centers_ 获取集群时,集群中心和每个集群的手动计算均值似乎不会给出完全相同的答案。 对于小样本量,差异
我在集群环境中使用 Quartz Scheduler 作为 Spring bean。 我有一些用@NotConcurrent 注释的作业,它们在每个集群中运行一次(即仅在一个节点中,仅在一个线程中)。
Node.js 本身有一个名为 Cluster 的核心模块(引用:http://nodejs.org/docs/v0.8.3/api/cluster.html),Learnboost 发布了一个名为
我是一名优秀的程序员,十分优秀!