split - SQOOP 中 --split-by 和 --boundary-query 有什么区别？-6ren

split - SQOOP 中 --split-by 和 --boundary-query 有什么区别？

转载作者：行者123 更新时间：2023-12-04 22:19:15

56

4

假设我们没有一个值均等分布的列，假设我们有一个这样的命令:

sqoop import \
...
--boundary-query "SELECT min(id), max(id) from some_table"
--split-by id
...

在这里使用 --boundary-query 而 --split-by 做同样的事情有什么意义？
有没有其他方法可以使用--boundary-query？
或者在没有键(唯一)列时更有效地拆分数据的任何其他方法？

最佳答案

--split-by id 将根据映射器的数量(默认为 4)将您的数据 均匀地拆分为 。

现在默认的边界查询是这样的。

--boundary-query "SELECT min(id), max(id) from some_table"

但是如果你知道 id 从 val1 开始，以 val2 结束。那么计算 min() 和 max() 操作就没有意义了。这将使 sqoop 命令执行速度更快。

您可以指定任何返回 val1 和 val2 的任意查询。

编辑:

现在(1.4.7)在sqoop中没有办法指定不均匀的分区进行拆分。

例如，您有以下数据:

1,2,3,51,52,191,192,193,194,195,196,197,198,199,200

如果您在命令中定义了 4 个映射器。它将检查 min 和 max，在我们的例子中分别是 1 和 200。

然后它将它分成4部分:

是的，在这个第三个映射器(101-150)中，从 RDBMS 表中不会得到任何。

但是没有办法定义自定义分区，如:

1-10
51-60
190-200

对于大数据(数十亿行)，实际上不适合像这样找到确切的值或使用其他工具先找到数据模式然后准备自定义分区。

关于split - SQOOP 中 --split-by 和 --boundary-query 有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40838036/

56

4

0

文章推荐： coq - 坚持一个关于正则表达式的简单证明

文章推荐： erlang - 原子数限制

文章推荐： excel - 如何在 Excel 上水平返回唯一值

文章推荐： excel - 如何调用引用 SpecialCells 的子程序？

boundary - 创建多部分表单边界的有效字符是什么？
在 HTML 表单中发布用于创建多部分边界的有效字符是什么？最佳答案根据 RFC 2046 ，第 5.1.1 节: boundary := 0*69 bcharsnospace bchars
React中巧妙实现Error Boundaries
大家好，我卡颂。本文会讲解React中Error Boundaries的完整实现逻辑。一张图概括：这里简单讲解下React工作流程，后文有用。分为三步：触发更新
java - 如何获取ZZ_CMAP_PACKED中的word boundary？
我正在尝试编写我的第一个 Elasticsearch 分析插件，我从 github 上找到了一个可扩展标准分析器插件项目:elasticsearch-analysis-standardext ，在项目
java - 将图像制作为 "boundary"
我正在开发一款游戏，其中你是一个发射子弹的简单圆圈及其多人游戏等等。好吧，我试图让边界有点像你必须经历的迷宫类型的东西，我尝试过这样的碰撞检测: public void checkCollisions
Java 正则表达式模式匹配任何字符序列后第一次出现的 “boundary”
我想设置一个模式，该模式将找到一个受第一次出现的“边界”限制的捕获组。但是现在使用最后一个边界。例如: String text = "this should match from A to the
matlab - 从旋转矩阵计算欧拉角 : boundary cases
我想根据旋转矩阵计算欧拉角，以便找出与该旋转关联的方向。为此，我正在使用 MATLAB 和函数 rotm2eul，它首先提供关于 x 轴的旋转，然后是关于 y 轴的旋转，最后是关于 z 轴的旋转。我
c - 数组 : out of the index/boundaries
这个问题已经有答案了: No out of bounds error (7 个回答) 已关闭 7 年前。在下面的代码中，我已将值分配给超出数组边界的数组元素，在 CLI 的 Linux 环境中，代码
python - 多部分解析器错误 :- Invalid boundary
我尝试使用 Python 请求模块将一些数据和文件发送到我的 django rest 应用程序，但出现以下错误。 raise MultiPartParserError('Invalid bou
算法帮助 : Walking the boundaries of a map
我正在尝试为我玩的游戏开发一个在线 map 编辑程序。 map 的数据有点大。如果我发送每个方格的数据，中等大小 map 的数据接近 1 mb。我认为我可以做的是在 map 上找到边界并以此为基础创
android - 我如何在android上实现 "boundary feedback"？
“Android 设计”网站推荐可 ScrollView 的“边界反馈”。 http://developer.android.com/design/style/touch-feedback.html
java - 加权随机数 : boundary case
引用此 post 中给出的最佳答案，我注意到当 rnd=sum_of_weight 时，它在边界情况下失败。解决方法是在 [0,sum_of_weight) 中生成随机数，但是我想知道为什么代码对于这
HTML 多部分表单 - "boundary"字符串的最大长度？
在多部分(即 Content-Type=multipart/form-data)形式中，HTTP 服务器应该接受的边界字符串的长度是否有上限？据我所知，相关的 RFC 说 70 个字符: RFC26
ruby : Split string on boundaries
我有一串任意字符，其中一些是数字。我想将字符串分成由数字和非数字组成的字段。例如，如果我的字符串的值为 'abc34d-f9'，我想得到一个数组 ['abc','34','d-f','9'] 我快到了
inheritance - 修复用例图 : actor boundaries and generalization
我正在尝试创建有关 Scooter 系统的用例图。我已经创建了图表，你可以在这里找到它: Use Case Diagram : 我收到了一些关于这张图的评论: 系统(或滑板车供应商)不是 Actor
javascript - 由于多部分 : Boundary not found 无法加载文件
我正在尝试从桌面上传图像，但找不到多部分边界的错误。如何设置上传图片的边界？第一次上传图片，请指教。用户上传图片时的html事件监听 document.getElementById('image-f
actionmailer - 发送带有文本附件的电子邮件时为 "Missing start boundary"
我在发送带有文本附件的电子邮件时遇到问题(没有附件，一切都很好)。我正在使用 actionmailer 3.2.11 并尝试通过 Amazon SES 发送电子邮件。在我看来，亚马逊 snmp 服务器
asynchronous - "crossing asynchronous boundaries"的含义
来自 Akka 文档，Pipelining and Parallelism Akka Streams processing stages (be it simple operators on Flow
.net - DAL : repository boundaries question
有一个 DAL 库公开了十几个存储库。每个实体一个存储库。有 PersonRepository 和 PhotoRepository。当我向存储库添加新方法并且方法处理实体时，很明显我必须将它放在哪里
正则表达式 - 零宽度 'word boundary' 使交替模式正确匹配
引用:perl string catenation and substitution in a single line? 给定输入: home/////test/tmp/ 以及所需的转换为: /hom
用 R 中的平均组替换缺失值 - 错误 : out of boundaries
我有一个看起来像这样的大文件: V1 SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP7 SNP8 SNP9 GROUP1 1 NA 2 1 1

首页

博学

6Ren·AI

商城

split - SQOOP 中 --split-by 和 --boundary-query 有什么区别？