hadoop - sqoop 导入大量 NULL 行-6ren

hadoop - sqoop 导入大量 NULL 行

转载作者：可可西里更新时间：2023-11-01 16:22:40

25

4

我正在将一个表从 mysql 导入到 hive。该表有 2115584 行。在导入过程中我看到了

13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.

但是当我对导入的表执行 count(*) 时，我看到它有 49262250 行。这是怎么回事？

更新:指定 --direct 时导入工作正常。

最佳答案

想通了。来自 sqoop 用户手册:

Hive will have problems using Sqoop-imported data if your database’s rows contain string fields that have Hive’s default row delimiters (\n and \r characters) or column delimiters (\01 characters) present in them. You can use the --hive-drop-import-delims option to drop those characters on import to give Hive-compatible text data.

我刚刚指定了 --hive-drop-import-delims，它现在可以工作了。

关于hadoop - sqoop 导入大量 NULL 行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15532178/

25

4

0

文章推荐： eclipse - Hadoop eclipse mapreduce 不工作？

文章推荐： c++ - Visual Studio Express 中访问说明符后的缩进问题

文章推荐： c++ - 创建新线程时复制构造函数调用

文章推荐： http - 通过 HTTP 获取私有(private) GitLab 仓库

sqoop - sqoop 导入时的部分和重复记录
当我们使用以下设置时，Sqoop 导入会导致重复/部分记录 --query - 自定义查询 --split-by - 非整数列(字符) --num-mappers - 超过 2 Verified th
apache - Sqoop - 无法找到或加载主类 org.apache.sqoop.Sqoop
我安装了 Hadoop、Hive、HBase、Sqoop 并将它们添加到 PATH 中。当我尝试执行 sqoop 命令时，出现此错误: Error: Could not find or load m
sqoop - Apache Sqoop 通信链路故障
当我连接到一个集群 ( aaaaaa1 ) 上的 mysql 和不同服务器 ( aaaaaa2 ) 上的 sqooop 时，我收到以下错误，尽管在 mySql 中创建了一个表，并授予另一个集群的完全权
sqoop - 使用 sqoop 列出列
我发现以下命令对于查看我的源数据库的样子非常有用: sqoop-list-databases sqoop-list-tables 但是，似乎没有列出表中列的命令，这将是一个合乎逻辑的步骤。我现在的问
Java - com.cloudera.sqoop 与 org.apache.sqoop 哪个要从 sqoop jar 导入？
我很困惑虽然导入库(com.cloudera.sqoop 和 org.apache.sqoop)并在 eclipse 中获取它(包含 jar sqoop-1.4.4-hadoop200.jar)- I
sqoop - Sqoop 中 $conditions 的意义
sqoop import命令中$conditions子句的意义是什么？ select col1, col2 from test_table where \$CONDITIONS 最佳答案 Sqoop
sqoop - Sqoop 中 $conditions 的意义
sqoop import命令中$conditions子句的意义是什么？ select col1, col2 from test_table where \$CONDITIONS 最佳答案 Sqoop
mysql - 错误 sqoop.Sqoop : Got exception running Sqoop: java. lang.RuntimeException : Could not load db driver class: com. mysql.jdbc.Driver
我正在使用共享节点集群 Hadoop 2.5.0-cdh5.3.2 请共享要加载的所有兼容版本的 MySql jar 文件的名称以及 HDFS 和 MySQL 之间成功导入和导出的所有路径文件夹。我
sqoop - 为什么我在 Azkaban 中的 Sqoop 任务在选择列后卡住了？
我在Azkaban中使用shell命令，并将Sqoop命令放在shell脚本中。今天 Sqoop 任务无缘无故卡住了，sqoop_task1。几天前发生在另一个 sqoop 任务上，我们称它为 s
java - 运行sqoop时找不到类异常:org/apache/sqoop/Sqoop
我已经在计算机上安装了sqoop (来自http://www.apache.org/dist/sqoop/1.4.4/的sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz)。当
sqoop - Apache Sqoop - 未找到 addtowar.sh
我刚刚下载了Sqoop安装文件sqoop-1.99.3-bin-hadoop100.tar.gz。我无法在其中找到文件 addtowar.sh。我按照此处的安装说明进行操作 - https://sqo
sqoop - 在 oozie 中捕获 sqoop 输出
我有一个 Oozie 工作流，它应该每 X 分钟运行一次。它从 HBase 表中读取一个值。在此之后，基于上一步从 HBase 读取的值运行(增量)Sqoop 操作。为了使工作流正常工作，我需要以某种
database - 我无法通过 sqoop 所有表在 sqoop 中导入数据
[cloudera@quickstart ~]$ **sqoop import-all-tables -m=4 --connect "jdbc:mysql://quickstart.cloudera:
mysql - 使用任何 sqoop 命令时出现 Sqoop 错误
我正在使用 hadoop 2.6.0，现在我正在尝试 sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz。我正在使用 sqoop 版本 sqoop version 2
hadoop - 执行 sqoop 作业时覆盖多个 sqoop 属性
我发现在运行时覆盖 sqoop 作业属性时，我只能覆盖一个属性。例子1:如果我提交 sqoop job --exec test123 -- --query "select * from test w
hadoop - 如何使用 sqoop 作业自动化 sqoop 增量导入？
如何使用sqoop job自动化sqoop增量导入？据我所知，sqoop job 会记住最后一个值。如果我们创建一个类似的 sqoop 作业 sqoop job --create myjob --
mysql - 在 sqoop 导出中，对于长文本，Sqoop 将列设为空
我正在尝试使用 sqoop export 将记录从 S3 导出到 Mysql Aurora。 S3 中的数据类型之一是 clob，它的长文本和 XML 文件作为 string 存储在其中。当我运行我
hadoop - Sqoop-2 在使用 sqoop shell 进行自定义查询时无法对单个节点进行大量导入
我正在对由计算量大的自定义查询生成的大型记录集进行原型(prototype)迁移。此查询大约需要 1-2 小时才能在 SQL Developer 中返回结果集我正在尝试将此查询传递给一个简单的 Sq
hadoop - Apache Sqoop Where 子句在使用 SQOOP IMPORT 时不起作用
谁能告诉我这个命令的输出是什么:这里的 departments 表有默认的 6 行(从 dept_id 2 到 7)，然后我向 Mysql db 'retail_db.departments' 表(d
hadoop - Sqoop 2 提供了哪些 Sqoop 1 没有提供的内容？
根据 sqoop.apache.org 的说法，Sqoop 2 的功能并不完整，不应该用于生产系统。很公平，有些人可能想在他们的测试环境中测试 Sqoop 2 的新功能。 Cloudera 对 Sqo

首页

博学

6Ren·AI

商城

hadoop - sqoop 导入大量 NULL 行