java - sqoop import-all-tables slow 和 sequence files 是自定义 java objects-6ren

java - sqoop import-all-tables slow 和 sequence files 是自定义 java objects

转载作者：可可西里更新时间：2023-11-01 15:26:54

27

4

我正在努力将一个非常大的数据库同步到配置单元。

有 2 个问题:(1) 文本导入速度较慢，而且 mapreduce 步长较大。 (2) 序列文件速度更快，但无法通过正常方式读取。

详情如下:

(1) 如果我们将数据导入为文本，则速度较慢。这些文件累积在临时文件夹中的主目录中，但最终会创建一个相当慢的 mapreduce 作业。

17/04/25 04:18:34 INFO mapreduce.Job: Job job_1490822567992_0996 running in uber mode : false
17/04/25 04:18:34 INFO mapreduce.Job:  map 0% reduce 0%
17/04/25 11:05:59 INFO mapreduce.Job:  map 29% reduce 0%
17/04/25 11:20:18 INFO mapreduce.Job:  map 86% reduce 0% <-- tends to hang a very long time here

(为简洁起见删除了很多行。)

(2) 如果我们将文件作为序列文件导入，速度会快得多，但是 Hive 无法读取检索到的数据，因为它需要了解创建的自动生成的 Java 文件。这也有一个 mapreduce 步骤，但它似乎进行得更快(或者那可能是一天中的某个时间……)。

对于由 sqoop 生成的每个表，我们都有一系列这样的类:public class MyTableName extends SqoopRecord implements DBWritable, Writable

使用这些类的步骤是什么？我们如何在配置单元中安装它们？令人惊讶的是，Cloudera 支持工程师并不知道，因为这一定是不常被标示的区域？？

sqoop import-all-tables --connect '...' --relaxed-isolation --num-mappers 7 --compress --autoreset-to-one-mapper --compression-codec=snappy --outdir javadir --as-sequencefile --hive-delims-replacement ' '

有什么建议吗？

最佳答案

I am open to Spark. Do you have some sample code?

免责声明:我只是从多个笔记本中汇集了一些片段，并且懒得(也饿了)在离开办公室之前启动测试运行。任何错误和拼写错误都由您来查找。

使用 Cloudera parcel (支持 Hive) 提供的 Spark 2.0，一种交互式风格的 Scala 脚本，在本地模式下，没有任何数据分区，一个 Microsoft SQL服务器连接，并直接插入到现有的 Hive 管理表中(带有一些额外的业务逻辑)...

spark2-shell --master local --driver-class-path /some/path/to/sqljdbc42.jar

//旁注:4 类 JDBC 驱动程序的自动注册在多个 Spark 构建中被破坏，并且错误不断出现，因此指定驱动程序类更安全，以防万一...

val weather = spark.read.format("jdbc").option("driver", "com.microsoft.sqlserver.jdbc.SQLServerDriver").option("url", "jdbc:sqlserver://myhost\\SQLExpress:9433;database=mydb").option("user", "mylogin").option("password", "*****").option("dbtable", "weather_obs").load()
{ printf( "%%% Partitions: %d / Records: %d\n", weather.rdd.getNumPartitions, weather.count)
  println("%%% Detailed DF schema:")
  weather.printSchema
}

//"dbtable" 使用子查询的替代方法:
//"(SELECT station, dt_obs_utc, temp_k FROM observation_meteo WHERE station LIKE '78%') x")

weather.registerTempTable("wth")
spark.sql(
    """
    INSERT INTO TABLE somedb.sometable
    SELECT station, dt_obs_utc, CAST(temp_k -273.15 AS DECIMAL(3,1)) as temp_c
    FROM wth
    WHERE temp_k IS NOT NULL
    """)
dropTempTable("wth")

weather.unpersist()

现在，如果您想使用 GZip 压缩在 Parquet 文件上动态创建 Hive 外部表，请将“临时表”技巧替换为...

weather.write.option("compression","gzip").mode("overwrite").parquet("hdfs:///some/directory/")

//Parquet 支持的压缩编解码器:无、snappy(默认)、gzip
//支持的 CSV 压缩编解码器:无(默认)、snappy、lz4、gzip、bzip2

def toImpalaType(sparkType : String ) : String = {
  if (sparkType == "StringType" || sparkType == "BinaryType")  { return "string" }
  if (sparkType == "BooleanType")                              { return "boolean" }
  if (sparkType == "ByteType")                                 { return "tinyint" }
  if (sparkType == "ShortType")                                { return "smallint" }
  if (sparkType == "IntegerType")                              { return "int" }
  if (sparkType == "LongType")                                 { return "bigint" }
  if (sparkType == "FloatType")                                { return "float" }
  if (sparkType == "DoubleType")                               { return "double" }
  if (sparkType.startsWith("DecimalType"))                     { return sparkType.replace("DecimalType","decimal") }
  if (sparkType == "TimestampType" || sparkType == "DateType") { return "timestamp" }
  println("########## ERROR - \"" +sparkType +"\" not supported (bug)")
  return "string"
}

spark.sql("DROP TABLE IF EXISTS somedb.sometable")
{ val query = new StringBuilder
  query.append("CREATE EXTERNAL TABLE somedb.sometable")
  val weatherSchema =weather.dtypes
  val (colName0,colType0) = weatherSchema(0)
  query.append("\n ( " +colName0 + " " +toImpalaType(colType0))
  for ( i <- 2 to tempSchema.length) { val (colName_,colType_) = tempSchema(i-1) ; query.append("\n , " +colName_ + " " +toImpalaType(colType_)) }
  query.append("\n )\nCOMMENT 'Imported from SQL Server by Spark'")
  query.append("\nSTORED AS Parquet")
  query.append("\nLOCATION 'hdfs:///some/directory'")
  sqlContext.sql(query.toString())
  query.clear()
}

如果您想对输入表进行分区(基于数字列 - 日期/时间不支持 AFAIK)，请查看 JDBC 导入选项 partitionColumn， lowerBound 和 upperBound。

如果你想在 YARN-client 模式下并行加载这些分区，那么添加一个 --jars 参数来将 JDBC 驱动程序上传到执行器。

关于java - sqoop import-all-tables slow 和 sequence files 是自定义 java objects，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43617552/

27

4

0

文章推荐： hadoop - Apache Accumulo 角色分配

文章推荐： http - Varnish:使缓存依赖于 X-Forwarded-Proto https

文章推荐： sql - 在 HIVE 的子组中使用排名

javascript - TypeError : Object [object Object], [object Object] 没有找到方法
我遵循了一本名为“Sitepoint Full Stack Javascript with MEAN”的书中的教程，我刚刚完成了第 6 章，应该已经创建了一个带有“数据库”的“服务器”。数据库只不过是
javascript - Ajax返回数组在PHP中显示[object Object],[object Object]
在 Jquery 中，我创建两个数组，一个嵌入另一个数组，就像这样...... arrayOne = [{name:'a',value:1}, {name:'b',value:2}] var arra
javascript - 为什么 ({}+{}) ="[object Object][object Object]"？
这个问题在这里已经有了答案: What is the explanation for these bizarre JavaScript behaviours mentioned in the 'Wa
angular - 无法解析...的所有参数([object Object]，[object Object]，？，？)
我被放在别人的代码上，有一个类用作其他组件的基础。当我尝试 ng serve --aot(或 build --prod)时，我得到以下信息。 @Component({ ...,
javascript - getJSON 只返回 [object Object],[object Object]
我正在测试一些代码，并使用数据创建了一个 json 文件。问题是我在警报中收到“[object Object],[object Object]”。没有数据。我做错了什么？这是代码:
javascript - print[ [object Object],[object Object]] 到json数组
我想打印 [object Object],[object Object] 以明智地 "[[{ 'x': '1', 'y': '0' }, { 'x': '2', 'y': '1' }]]"; 在 ja
javascript - Couchdb 列表仅返回 [object Object][object Object]
我有一个功能 View ，我正在尝试以特殊格式的方式输出。但我无法让列表功能正常工作。我得到的唯一返回是[object Object][object Object] [object Object]
javascript - TypeError Object[object object] 没有方法 SubSelf，TypeError Object[object object] 没有方法 intersectsPlane
在使用优秀的 Sim.js 和 Three.js 库处理 WebGL 项目时，我偶然发现了下一个问题: 一路走来，它使用了 THREE.Ray 的下一个构造函数: var ray = new THRE
javascript - React js 多选 [object Object], [object Object]
我正在使用 Material UI 进行多重选择。这是我的代码。 {listStates.map(col => (
javascript - jquery ajax [object Object] [object Object] 在列表中输出
我的代码使用ajax: $("#keyword").keyup(function() { var keyword = $("#keyword").val(); if (keyword.
angular - 无法解析 AuthenticationService : ([object Object], 的所有参数？，[object Object])
我遇到了下一个错误，无法理解如何解决它。 Can't resolve all parameters for AuthenticationService: ([object Object], ?, [o
Angular 10 FormArray ERROR 错误 : Cannot find control with name: '[object Object], [object Object],[object Object]
我正在尝试创建一个显示动态复选框的表单，至少应选中其中一个才能继续。我还需要获取一组选中的复选框。这是组件的代码: import { Component, OnInit } from '@angul
javascript - 为什么我在 UI 中没有收到验证 Flash 消息，我收到这样的 Flash 错误 [object Object],[object Object],[object Object]
我正在开发 NodeJs 应用程序，它是博客应用程序。我使用了快速验证器，我尝试在 UI 端使用快速闪存消息将帖子保存在数据库中之前使用闪存消息验证数据，我成功地将数据保存在数据库中，但在提交表单后消
jquery - $.getJSON 返回 “undefined” 或 [object Object] [object Object]
我知道有些人问了同样的问题并得到了解答。我已经查看了所有这些，但仍然无法解决我的问题。我有一个 jquery snipet，它将值发送到处理程序，处理程序处理来自 JS 的值并将数据作为 JSON 数
c# - object == object 而不是 object.id == object.id 潜在问题
我继承了一个非常草率的项目，我的任务是解释为什么它不好。我注意到他们在整个代码中都进行了这样的比较 (IQueryable).FirstOrDefault(x => x.Facility == fac
javascript - Object, Object 和 [1 : Object, 2 : Object]? 有什么区别
我只是在删除数组中的对象时偶然发现了这一点。代码如下: friends = []; friends.push( { a: 'Nexus', b: 'Muffi
objective-c - setting object = nil and [object release] VS [object release] and object = nil 有什么区别？
这两个代码片段有什么区别: object = nil; [object release] 对比 [object release]; object = nil; 哪个是最佳实践？最佳答案 object
javascript - Object.create(Object.prototype) , Object.create(Object) 和 Object.create(null) 之间的区别
我应该为其他人将从中继承的第一个父对象传递哪个参数，哪个参数更有效 Object.create(Object.prototype) Object.create(Object) Object.creat
objective-c - 执行cancelPreviousPerformRequestsWithTarget :selector:object: for all objects
我在不同的对象上安排不同的选择器 [self performSelector:@selector(doSmth) withObject:objectA afterDelay:1]; [self per
objective-c - 在 Objective-C 中打印 &object 和 object 的区别
NSLog(@"%p", &object); 和 NSLog(@"%p", object); 有什么区别？两者似乎都打印出一个内存地址，但我不确定哪个是对象的实际内存地址。最佳答案这就是我喜欢的

首页

博学

6Ren·AI

商城

java - sqoop import-all-tables slow 和 sequence files 是自定义 java objects