- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 HDFS 上有这个巨大的文件,它是我的数据库的一个提取物。例如:
1||||||1||||||||||||||0002||01||1999-06-01 16:18:38||||2999-12-31 00:00:00||||||||||||||||||||||||||||||||||||||||||||||||||||||||2||||0||W.ISHIHARA||||1999-06-01 16:18:38||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||19155||||||||||||||1||1||NBV||||||||||||||U||||||||N||||||||||||||||||||||
1||||||8||2000-08-25 00:00:00||||||||3||||0001||01||1999-06-01 16:26:16||||1999-06-01 17:57:10||||||||||300||||||PH||400||Yes||PH||0255097�`||400||||1||103520||||||1||4||10||||20||||||||||2||||0||S.OSARI||1961-10-05 00:00:00||1999-06-01 16:26:16||�o��������������||�o��������������||1||||����||||1||1994-01-24 00:00:00||2||||||75||1999-08-25 00:00:00||1999-08-25 00:00:00||0||1||||4||||||�l��������������||�o��������������||�l��������������||||�o��������������||NP||||�l��������������||�l��������������||||||5||19055||||||||||1||||8||1||NBV||||||||||||||U||||||||N||||||||||||||||||||||
我想使用 pyspark(1.6 和 python 3)将这个文件加载到配置单元中。但我的工作一直失败。这是我的代码:
toProcessFileDF = sc.binaryFiles("MyFile")\
.flatMap(lambda x: x[1].split(b'\n'))\
.map(lambda x: x.decode('sjis'))\
.filter(lambda x: x.count('|')==sepCnt*2)\
.map(lambda x: x.split('||'))\
.toDF(schema=tableSchema) #tableSchema is the schema retrieved from hive
toProcessFileDF.write.saveAsTable(tableName, mode='append')
我收到了几个错误,但其中包括 jave 143(内存错误)、心跳超时和内核已死。 (如果您需要确切的日志错误,请告诉我)。
这样做正确吗?也许有更聪明或更有效的方法。你能给我一些关于如何执行此操作的建议吗?
最佳答案
我发现 databrick csv 阅读器对此非常有用。
toProcessFileDF_raw = sqlContext.read.format('com.databricks.spark.csv')\
.options(header='false',
inferschema='false',
charset='shift-jis',
delimiter='\t')\
.load(toProcessFile)
不幸的是,我只能使用定界符选项来分割一个字符。因此,我的解决方案是用制表符拆分,因为我确定我的文件中没有任何内容。然后我可以在我的线上应用拆分。
这并不完美,但至少我有正确的编码并且我没有把所有东西都放在内存中。
关于python - 在 hadoop 中加载大的日本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43536182/
我正在制作一些必须完全是 unicode 的网站。数据库等正在工作,我只有一些小的逻辑错误。如果字段有效,我会使用 ajax 测试我的注册表单,在电子邮件字段中,我会使用正则表达式进行检查。 但是,如
我正在考虑创建一个我想在全局范围内销售的应用程序,其中包括普通语言,包括中文、日文、韩文等,并希望提交这些国家/地区也能理解它是什么。 鉴于此,最好的方法是什么? 是否可以在 App Store 中针
这个问题已经有答案了: How to delete data from org.hibernate.collection.PersistentBag? | Hibernate (Jpa) (1 个回答
我想为 2 个实体创建 Derby 表: 实体A,实体B。 在“A”实体中,我有 ArrayList . 在“A”实体中我有 ArrayList 。 我应该在这个 ArrayList 上面添加哪些注释
我工作的公司目前正在使用 Digital River在我们的电子商务网站上呈现一个单独的日本购物车。我们想将日本支付选项集成到我们自己的购物车应用程序中,但我无法理解 konbini 支付。关于如何支
我们正在处理 IBM Enterprise 日语 COBOL 源代码。 准确描述 G 类型文字中允许的内容的规则, 标识符允许的内容尚不清楚。 IBM 手册指出 G'....' 文字 必须有一个 SH
我想检查输入是否是有效的文胸尺寸。在美国,胸罩尺码以偶数 28-48 和字母 A-I、AAA、AA、DD、DDD、HH 或 HHH 书写。欧盟、日本和澳大利亚使用不同的数字和模式,例如。 90C C9
我是一名优秀的程序员,十分优秀!