作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要从存储在HDFS中的选项卡已分发文件中提取几列。
我能够从HDFS读取到RDD并将行拆分为列表,但是我不知道如何获取我关心的列。
我的代码:
raw_file = sc.textFile("hdfs.......tsv")
rdd = raw_file.map(lambda line: line.split('\t'))
filtered = rdd.filter(lambda line: append(line[26]), append(line[80]), append(line[109], append(line[452])).collect()
最佳答案
过滤器用于根据某些条件返回或省略行。
rdd = sc.range(10)
even = rdd.filter(lambda x: x % 2 == 0)
even.collect()
# Out: [0, 2, 4, 6, 8]
rdd = sc.range(2).map(lambda i: ["a", "b", "c", "d", "e", "f"])
print rdd.collect()
# [['a', 'b', 'c', 'd', 'e', 'f'], ['a', 'b', 'c', 'd', 'e', 'f']]
mapped = rdd.map(lambda r: [r[1], r[3], r[5]])
print mapped.collect()
# [['b', 'd', 'f'], ['b', 'd', 'f']]
关于hadoop - 我需要使用pyspark从RDD过滤掉一些内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35561368/
我正在编写一个快速的 preg_replace 来从 CSS 中删除注释。 CSS 注释通常有这样的语法: /* Development Classes*/ /* Un-comment me for
使用 MySQL,我有三个表: 项目: ID name 1 "birthday party" 2 "soccer match" 3 "wine tasting evening" 4
我是一名优秀的程序员,十分优秀!