hadoop - Sqoop导入-源表架构更改-6ren

hadoop - Sqoop导入-源表架构更改

转载作者：行者123 更新时间：2023-12-02 19:49:42

25

4

假设在任何关系数据库中都有一个名为T1的表，其中包含100多个列。我将此表导入为CSV到HDFS中。

现在，将另外10列添加到表T1中。如果我将此数据导入HDFS，则新数据将比以前多10列。

问题:

sqoop如何排序要导入的列，以便新旧数据(至少对于T1更改之前的列而言)在正确的位置？

对于新列，这些列是否总是总是在末尾导入？

如果删除列怎么办？如何处理这种情况，即旧数据和新数据如何保留位置？

最佳答案

How does sqoop order the columns being imported, so that the old and the new data (at least for the columns before the change in T1) are at the right positions?

在将数据写入HDFS时，所有基于Hadoop的工具都不会强制执行架构。默认情况下，它不会尝试使用新字段更新旧数据。 Sqoop不知道HDFS中的数据列。对于新数据，这完全取决于您如何编写sqoop import命令。如果您将 --table子句与 --columns子句一起使用，则数据将按照源上的顺序进行。如果发出 --query子句以提供用于获取数据的自定义查询，则该顺序将基于查询中select子句的列顺序。如果您不想在sqoop导入中明确提及列名，则可以考虑在源数据库上创建 View 。

With new columns, do these columns always get imported at the end?

不一定像我之前解释的那样

What if a column gets deleted? How to handle this situation i.e. how does the old data and the new data retain the positions?

如果删除了列，则很有可能您必须根据某些规则在处理时重新加载数据或处理数据。更好的方法是重新加载数据或在源数据库上创建 View 。

这些不是sqoop it自身的局限性，它们是标准问题，无论您使用什么技术，都需要自定义解决方案。问题过于笼统，因此获取API可能不可行。

关于hadoop - Sqoop导入-源表架构更改，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34601415/

25

4

0

文章推荐： reactjs - 如何访问在Docker容器中运行的create-react-app？

文章推荐： html - CSS 网格和语义 HTML

python - 为什么有些包需要用 'from' 导入，而其他包需要用 'import' 导入？
当我这样做时... import numpy as np ...我可以使用它但是... import pprint as pp ...不能，因为我需要这样做... from pprint import
python - 导入 OpenCV - 导入 cv2 或 cv3，为什么目录很重要？
我第一次尝试将 OpenCV 用于 Python 3。要安装，我只需在终端中输入“pip3 install opencv-python”。当我这样做时，我在 Finder(我在 Mac 上)中看到，在
Python 导入 X 还是从 X 导入 Y？ (表现)
如果有一个库我将使用至少两种方法，那么以下之间在性能或内存使用方面是否有任何差异？ from X import method1, method2 和 import X 最佳答案有区别，因为在 imp
javascript - 从 'lib' 导入 {fn1} 与从 'lib' 导入 fn1
我正在从 lodash 导入一些函数，我的同事告诉我，单独导入每个函数比将它们作为一个组导入更好。当前方法: import {fn1, fn2, fn3} from 'lodash'; 首选方法:
xsd - WSDL 导入 'location' 属性 -vs- XSD 导入 'schemaLocation' 属性
之间有什么关系: import WSDL 中的元素 -和- import元素和在 XML Schema ...尤其是 location 之间的关系前者和 schemaLocation 的属性后者的属性
python - 导入 shared_randomstreams.RandomStreams 时无法从 Google colab 上的 Theano 导入 local_bitwidth
我在从 'theano.configdefaults' 导入 'local_bitwidth' 时遇到问题。并显示以下消息: ImportError
javascript - 从 'react' 导入 * 作为 React； vs 从 'react' 导入 React；
我注意到 React 可以这样导入: import * as React from 'react'; ...或者像这样: import React from 'react'; 第一个导入 react
matlab - 将 ITK/VTK 导入 Matlab 或将 Matlab 导入 VTK/ITK 环境？
对于当前的项目，我必须使用矩阵中提供的信息并对其进行数学计算，以及使用 ITK/VTK 函数来显示医疗信息/渲染。基本上我必须以(我猜)50/50 的方式同时使用 matlab 例程和 VTK/ITK
python - '从 sqlite3 导入 dbapi2 作为 sqlite 3' vs ' 导入 sqlite3'？
当我看到 pysqlite 的示例时，SQLite 库有两个用例。 from sqlite3 import dbapi2 as sqlite3 和 import sqlite3 为什么有两种方式支持s
python-2.7 - 导入 matplotlib._png 作为 _png 导入 : Error: DLL load failed: The specified module could not be found
我使用 Anaconda Python 发行版:Python 2.7 x64 和 Windows 7 SP1 x64 Ultimate。当我import matplotlib.pyplot时，我得到
Docker容器中镜像导出/导入
目录【容器】镜像导出/导入导出导入带标签不带标签，后期修改【仓库】镜像导出/导入
Python3 导入
我正在寻找一种导入模块的方法，以便我可以从子文件夹 project/v0 和根文件夹 project 运行脚本。/p> 我在 python 3.6 中的文件结构(这就是没有初始化文件的原因) proj
Python * 导入
我通常被告知以下是不好的做法。 from module import * 主要原因(或者有人告诉我)是，您可能会导入一些您不想要的东西，并且它可能会隐藏另一个模块中具有类似名称的函数或类。但是，Py
Python - 导入 if
我为 urllib (python3) 编写了一个小包装器。在if中导入模块是否正确且安全？ if self.response_encoding == 'gzip': import gzip
Pimcore 导入/导出
我正在 pimcore 中创建一个新站点。有没有办法导出/导入 pimcore 站点的完整数据，以便我可以导出 xml/csv 格式的 pimcore 数据进行必要的更改，然后将其导入回来？最佳答案
javascript - 导入/导出名称冲突解决
在 Node JS 中测试以下模块布局，看起来本地导出的定义总是在名称冲突的情况下替换外部导出的定义(参见 B.js 中的 f1)。 A.js export const f1 = 'A' B.js e
EXCEL 导入 Access
我在使用 VBA 代码时遇到了一些问题，该代码应该将 excel 数据导入我的 Access 数据库。当我运行代码时，我收到一个运行时错误“运行时错误 438 对象不支持此属性或方法”。来自我在其他论
Python:导入 * 只从包中导入某些东西？
我有一个名为 elements 的包，其中包含按钮、trifader、海报等内容。在 Button 类中，我正在执行 from elements import * 这执行正常，当我尝试 print(p
Python 导入 AS 因绝对导入而失败
在我长期使用 python 的经验中，我遇到了一个非常奇怪的问题。提前我想说我想知道为什么会发生这种情况，而不是如何更改我的代码或如何修复它，因为我也可以做到。我正在使用 python2.7.3
r - 导入 - 具有相同名称但来自不同包的函数
我正在更新我的包。但是，我正在为依赖项/导入而苦苦挣扎。我使用了两个冲突的包 - ggplot2和 psych及其功能 alpha当然还有 alpha ggplot2 的对象不同于 alpha psy

首页

博学

6Ren·AI

商城

hadoop - Sqoop导入-源表架构更改