- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在努力将一个非常大的数据库同步到配置单元。
有 2 个问题:(1) 文本导入速度较慢,而且 mapreduce 步长较大。 (2) 序列文件速度更快,但无法通过正常方式读取。
详情如下:
(1) 如果我们将数据导入为文本,则速度较慢。这些文件累积在临时文件夹中的主目录中,但最终会创建一个相当慢的 mapreduce 作业。
17/04/25 04:18:34 INFO mapreduce.Job: Job job_1490822567992_0996 running in uber mode : false
17/04/25 04:18:34 INFO mapreduce.Job: map 0% reduce 0%
17/04/25 11:05:59 INFO mapreduce.Job: map 29% reduce 0%
17/04/25 11:20:18 INFO mapreduce.Job: map 86% reduce 0% <-- tends to hang a very long time here
(为简洁起见删除了很多行。)
(2) 如果我们将文件作为序列文件导入,速度会快得多,但是 Hive 无法读取检索到的数据,因为它需要了解创建的自动生成的 Java 文件。这也有一个 mapreduce 步骤,但它似乎进行得更快(或者那可能是一天中的某个时间……)。
对于由 sqoop 生成的每个表,我们都有一系列这样的类:public class MyTableName extends SqoopRecord implements DBWritable, Writable
使用这些类的步骤是什么?我们如何在配置单元中安装它们?令人惊讶的是,Cloudera 支持工程师并不知道,因为这一定是不常被标示的区域??
sqoop import-all-tables --connect '...' --relaxed-isolation --num-mappers 7 --compress --autoreset-to-one-mapper --compression-codec=snappy --outdir javadir --as-sequencefile --hive-delims-replacement ' '
有什么建议吗?
最佳答案
I am open to Spark. Do you have some sample code?
免责声明:我只是从多个笔记本中汇集了一些片段,并且懒得(也饿了)在离开办公室之前启动测试运行。任何错误和拼写错误都由您来查找。
spark2-shell --master local --driver-class-path /some/path/to/sqljdbc42.jar
//旁注:4 类 JDBC 驱动程序的自动注册在多个 Spark 构建中被破坏,并且错误不断出现,因此指定驱动程序类更安全,以防万一...
val weather = spark.read.format("jdbc").option("driver", "com.microsoft.sqlserver.jdbc.SQLServerDriver").option("url", "jdbc:sqlserver://myhost\\SQLExpress:9433;database=mydb").option("user", "mylogin").option("password", "*****").option("dbtable", "weather_obs").load()
{ printf( "%%% Partitions: %d / Records: %d\n", weather.rdd.getNumPartitions, weather.count)
println("%%% Detailed DF schema:")
weather.printSchema
}
//"dbtable"
使用子查询的替代方法:
//"(SELECT station, dt_obs_utc, temp_k FROM observation_meteo WHERE station LIKE '78%') x")
weather.registerTempTable("wth")
spark.sql(
"""
INSERT INTO TABLE somedb.sometable
SELECT station, dt_obs_utc, CAST(temp_k -273.15 AS DECIMAL(3,1)) as temp_c
FROM wth
WHERE temp_k IS NOT NULL
""")
dropTempTable("wth")
weather.unpersist()
weather.write.option("compression","gzip").mode("overwrite").parquet("hdfs:///some/directory/")
//Parquet 支持的压缩编解码器:无、snappy(默认)、gzip
//支持的 CSV 压缩编解码器:无(默认)、snappy、lz4、gzip、bzip2
def toImpalaType(sparkType : String ) : String = {
if (sparkType == "StringType" || sparkType == "BinaryType") { return "string" }
if (sparkType == "BooleanType") { return "boolean" }
if (sparkType == "ByteType") { return "tinyint" }
if (sparkType == "ShortType") { return "smallint" }
if (sparkType == "IntegerType") { return "int" }
if (sparkType == "LongType") { return "bigint" }
if (sparkType == "FloatType") { return "float" }
if (sparkType == "DoubleType") { return "double" }
if (sparkType.startsWith("DecimalType")) { return sparkType.replace("DecimalType","decimal") }
if (sparkType == "TimestampType" || sparkType == "DateType") { return "timestamp" }
println("########## ERROR - \"" +sparkType +"\" not supported (bug)")
return "string"
}
spark.sql("DROP TABLE IF EXISTS somedb.sometable")
{ val query = new StringBuilder
query.append("CREATE EXTERNAL TABLE somedb.sometable")
val weatherSchema =weather.dtypes
val (colName0,colType0) = weatherSchema(0)
query.append("\n ( " +colName0 + " " +toImpalaType(colType0))
for ( i <- 2 to tempSchema.length) { val (colName_,colType_) = tempSchema(i-1) ; query.append("\n , " +colName_ + " " +toImpalaType(colType_)) }
query.append("\n )\nCOMMENT 'Imported from SQL Server by Spark'")
query.append("\nSTORED AS Parquet")
query.append("\nLOCATION 'hdfs:///some/directory'")
sqlContext.sql(query.toString())
query.clear()
}
partitionColumn
,
lowerBound
和
upperBound
。
如果你想在 YARN-client 模式下并行加载这些分区,那么添加一个 --jars
参数来将 JDBC 驱动程序上传到执行器。
关于java - sqoop import-all-tables slow 和 sequence files 是自定义 java objects,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43617552/
我遵循了一本名为“Sitepoint Full Stack Javascript with MEAN”的书中的教程,我刚刚完成了第 6 章,应该已经创建了一个带有“数据库”的“服务器”。数据库只不过是
在 Jquery 中,我创建两个数组,一个嵌入另一个数组,就像这样...... arrayOne = [{name:'a',value:1}, {name:'b',value:2}] var arra
这个问题在这里已经有了答案: What is the explanation for these bizarre JavaScript behaviours mentioned in the 'Wa
我被放在别人的代码上,有一个类用作其他组件的基础。当我尝试 ng serve --aot(或 build --prod)时,我得到以下信息。 @Component({ ...,
我正在测试一些代码,并使用数据创建了一个 json 文件。 问题是我在警报中收到“[object Object],[object Object]”。没有数据。 我做错了什么? 这是代码:
我想打印 [object Object],[object Object] 以明智地 "[[{ 'x': '1', 'y': '0' }, { 'x': '2', 'y': '1' }]]"; 在 ja
我有一个功能 View ,我正在尝试以特殊格式的方式输出。但我无法让列表功能正常工作。 我得到的唯一返回是[object Object][object Object] [object Object]
在使用优秀的 Sim.js 和 Three.js 库处理 WebGL 项目时,我偶然发现了下一个问题: 一路走来,它使用了 THREE.Ray 的下一个构造函数: var ray = new THRE
我正在使用 Material UI 进行多重选择。这是我的代码。 {listStates.map(col => (
我的代码使用ajax: $("#keyword").keyup(function() { var keyword = $("#keyword").val(); if (keyword.
我遇到了下一个错误,无法理解如何解决它。 Can't resolve all parameters for AuthenticationService: ([object Object], ?, [o
我正在尝试创建一个显示动态复选框的表单,至少应选中其中一个才能继续。我还需要获取一组选中的复选框。 这是组件的代码: import { Component, OnInit } from '@angul
我正在开发 NodeJs 应用程序,它是博客应用程序。我使用了快速验证器,我尝试在 UI 端使用快速闪存消息将帖子保存在数据库中之前使用闪存消息验证数据,我成功地将数据保存在数据库中,但在提交表单后消
我知道有些人问了同样的问题并得到了解答。我已经查看了所有这些,但仍然无法解决我的问题。我有一个 jquery snipet,它将值发送到处理程序,处理程序处理来自 JS 的值并将数据作为 JSON 数
我继承了一个非常草率的项目,我的任务是解释为什么它不好。我注意到他们在整个代码中都进行了这样的比较 (IQueryable).FirstOrDefault(x => x.Facility == fac
我只是在删除数组中的对象时偶然发现了这一点。 代码如下: friends = []; friends.push( { a: 'Nexus', b: 'Muffi
这两个代码片段有什么区别: object = nil; [object release] 对比 [object release]; object = nil; 哪个是最佳实践? 最佳答案 object
我应该为其他人将从中继承的第一个父对象传递哪个参数,哪个参数更有效 Object.create(Object.prototype) Object.create(Object) Object.creat
我在不同的对象上安排不同的选择器 [self performSelector:@selector(doSmth) withObject:objectA afterDelay:1]; [self per
NSLog(@"%p", &object); 和 NSLog(@"%p", object); 有什么区别? 两者似乎都打印出一个内存地址,但我不确定哪个是对象的实际内存地址。 最佳答案 这就是我喜欢的
我是一名优秀的程序员,十分优秀!