- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
...我真的认为这是一条人迹罕至的道路。
我想通过检查 CSV 文件中公开(通常情况下)列名的第一条记录,在 Hive(或 SQL)中创建 DDL 语句。
我已经看到了这个问题的各种接近答案,但不是很多可以自动化或大规模复制的答案。
我创建了以下代码来处理任务,但我担心它有一些问题:
#!/usr/bin/python
import sys
import csv
# get file name (and hence table name) from command line
# exit with usage if no suitable argument
if len(sys.argv) < 2:
sys.exit('Usage: ' + sys.argv[0] + ': input CSV filename')
ifile = sys.argv[1]
# emit the standard invocation
print 'CREATE EXTERNAL TABLE ' + ifile + ' ('
with open(ifile + '.csv') as inputfile:
reader = csv.DictReader(inputfile)
for row in reader:
k = row.keys()
sprung = len(k)
latch = 0
for item in k:
latch += 1
dtype = '` STRING' if latch == sprung else '` STRING,'
print '`' + item.strip() + dtype
break
print ')\n'
print "ROW FORMAT DELIMITED FIELDS TERMINATED BY ','"
print "LOCATION 'replacethisstringwith HDFS or S3 location'"
首先,它只是将所有内容都数据类型化为字符串。 (我想来自 CSV,这是一种可以原谅的罪过。当然,人们可以篡改结果输出以更准确地设置数据类型。)
第二个是它不会清理 Hive 表列名中不允许的字符的潜在列名。 (我很容易地通过读入一个数据集来打破它,在这个数据集中,列名通常有一个撇号作为数据。这造成了困惑。)
第三个是数据位置被标记化。我想只需要多一点编码时间,它就可以作为参数在命令行上传递。
我的问题是——我们为什么需要这样做?我缺少什么简单的方法来做到这一点?
(顺便说一句:引用 CSV Serde 没有奖励积分 - 我认为这仅在 Hive 14 中可用。我们中的很多人还没有在我们的生产系统上走那么远。)
最佳答案
关于第一个问题(所有列都输入为字符串),这实际上是当前的行为,即使表是由 CSVSerde 或 RegexSerDe 之类的东西处理的。根据您的用例的细节是否可以容忍额外的运行时延迟,一种可能的方法是根据您的外部表定义一个 View ,该 View 在查询时动态重铸列,并针对 View 而不是外部表直接查询。像这样的东西:
CREATE VIEW VIEW my_view (
CAST(col1 AS INT) AS col1,
CAST(col2 AS STRING) AS col2,
CAST(col3 AS INT) as col3,
...
...
) AS SELECT * FROM my_external_table;
对于第二个问题(清理列名),我推断您的 Hive 安装是 0.12 或更早版本(0.13 支持列名中的任何 unicode 字符)。如果您导入 re
regex 模块,您可以在您的 Python 中使用类似以下的内容执行该清理:
for item in k:
...
print '`' + re.sub(r'\W', '', item.strip()) + dtype
这应该摆脱任何非字母数字/下划线字符,这是 0.13 之前对 Hive 列名称的期望。顺便说一句,如果您以这种方式清理列名,我认为您不再需要周围的反引号。
关于第三个问题(外部表位置),我认为将位置指定为命令行参数是一种合理的做法。一种替代方法可能是向您的数据文件添加另一个“metarow”,以某种方式指定位置,但如果您已经坐在大量数据文件上,那将是一件痛苦的事情 - 我个人更喜欢命令行方法。
关于mysql - 创建 Hive 表 - 如何从 CSV 源中导出列名?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28803989/
是否可以调整此代码以导出foreach循环外的所有行: 这工作正常(内部循环): $vms = Get-VM | Where { $_.State –eq ‘Running’ } | Select-
我试图将我的 bundle.js 引入我的 Node 服务器,但显然 webpack 包在顶部的所有包代码之前缺少一个 module.exports =。 我可以手动将 module.exports
我有一个 android 项目,其中包含一个库项目。在这个库项目中,我包含了许多可绘制对象和动画。 问题是,当我将主项目导出为 .apk 时,它包括所有可绘制对象和动画,甚至是主项目中未使用的对象。
我的一个 mysql 用户以这种方式耗尽了他的生产数据库: 他将所有数据导出到转储文件,然后删除所有内容,然后将数据导入回数据库。他从 Innodb 大表空间中保存了一些 Gig(我不知道他为什么这样
我正在 pimcore 中创建一个新站点。有没有办法导出/导入 pimcore 站点的完整数据,以便我可以导出 xml/csv 格式的 pimcore 数据进行必要的更改,然后将其导入回来? 最佳答案
我有以下静态函数: static inline HandVal StdDeck_StdRules_EVAL_N( StdDeck_CardMask cards, int n
因为我更新了 angular cli 和 nestjs 版本,所以我收到了数百条警告,提示我无法找到我的自定义类型定义和接口(interface)。但是我的nestjs api仍然可以正常工作。 我正
Eclipse 的搜索结果 View 以其树状结构非常方便。有没有办法将这些结果导出为可读的文本格式或将它们保存到文件中以备后用? 我试过使用复制和粘贴,但生成的文本格式远不可读。 最佳答案 不,我认
我想在用户在 Chrome 中打开页面时使用 WebP否则它应该是 png。 我找到了这段代码: var isChrome = !!window.chrome && !!window.chrome.w
您好,我正在尝试根据“上次登录”导出 AD 用户列表 我已经使用基本 powershell 编写了脚本,但是如果有人可以使用“AzureAD 到 Powershell” 命令找到解决方案,我会很感兴趣
有没有办法启用 Stockchart 的导出?我知道这对于普通图表是可行的,但对于股票图表,当尝试启用导出模式时,我得到了未定义, 我尝试过:chart.export.enabled=true;和ch
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我正在尝试学习如何使用命令行将数据导入/导出到 Oracle。根据我的发现,看起来我应该使用 sqlldr.exe 文件来导入和导出,但我不确定除了 userid 之外还需要什么参数。谁能给我解释一下
您好,我正在尝试根据“上次登录”导出 AD 用户列表 我已经使用基本 powershell 编写了脚本,但是如果有人可以使用“AzureAD 到 Powershell” 命令找到解决方案,我会很感兴趣
我想生成一个 PDF,它将以表格格式显示查询集的输出,例如: query = ModelA.objects.filter(p_id=100) class ModelA(models.Model):
我有一个数据库代理,可以从 IBM Notes 数据生成 Word 文档。我正在使用 Java2Word API 来实现此目的,但不幸的是,该 API 几乎没有文档,而且我找不到任何有关表格格式(大小
我尝试将 Java 程序从 Eclipse 导出到 .jar 文件,但遇到了问题。它运行良好,但由于某种原因它没有找到它应该从中获取数据的文本文件。如果有人能帮忙解决这个问题,我将非常感激。 最佳答案
我正在尝试学习如何使用命令行将数据导入/导出到 Oracle。根据我的发现,看起来我应该使用 sqlldr.exe 文件来导入和导出,但我不确定除了 userid 之外还需要什么参数。谁能给我解释一下
使用LLVM / Clang编译到WebAssembly的默认代码生成将导出内存,并完全忽略表。 使用clang(--target=wasm32-unknown-unknown-wasm)定位Web组
我正在尝试在 HSQL 数据库中重新创建一个 oracle 数据库。 这是为了在本地开发人员系统上进行更好的单元测试。 我需要知道的是,是否有任何我可以在 oracle 服务器/客户端中使用的工具/命
我是一名优秀的程序员,十分优秀!