- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的问题是我有多个结构相同的 txt 文件,我想将其导入 spark。然后创建一个标识符列,汇总数据,最后堆叠它们。
例如其中一个文件如下所示:
Date A B C
2/21/2014 A1 11 2
2/22/2014 A1 11 5
2/23/2014 A1 21 3
2/24/2014 A1 13 5
2/25/2014 A1 23 4
2/26/2014 A1 28 4
2/27/2014 A1 32 2
2/28/2014 B1 45 4
3/1/2014 B1 39 4
3/2/2014 B1 29 4
3/3/2014 B1 49 5
3/4/2014 B1 18 4
3/5/2014 B1 30 3
3/6/2014 B1 50 5
读完这个文件后,我想添加一个提及文件名的列,更新后的数据如下所示:
Date A B C File
2/21/2014 A1 22 2 File1
2/22/2014 A1 36 2 File1
2/23/2014 A1 17 4 File1
2/24/2014 A1 30 2 File1
2/25/2014 A1 11 2 File1
2/26/2014 A1 32 2 File1
2/27/2014 A1 19 5 File1
2/28/2014 B1 22 3 File1
3/1/2014 B1 12 5 File1
3/2/2014 B1 50 3 File1
3/3/2014 B1 42 4 File1
3/4/2014 B1 37 4 File1
3/5/2014 B1 31 5 File1
3/6/2014 B1 20 3 File1
然后总结数据:
File A B C
File1 A1 167 19
File1 B1 214 27
同样,将创建并汇总另一个数据集。最后叠在一起。在 2 个文件的情况下,数据集如下所示:
File A B C
File1 A1 167 19
File1 B1 214 27
File2 Z10 167 19
File2 X20 214 27
我可以单独导入数据,通过将其转换为数据帧来处理它们,最后堆叠它们。但我无法以自动化的方式做到这一点。谁能帮帮我。
非常感谢!
最佳答案
如果您的单个文件适合内存,您可以使用 wholeTextFiles
,
rdd = sc.wholeTextFiles("/directorypath/*")
def appender(x):
i = x[0]
j = x[1].split("\n")
k = [x.split() for x in j]
l = [x.append(i) for x in k]
return k
frdd = rdd.flatMap(appender)
df = frdd.toDF("Date","A","B","C","FileName")
wholeTextFiles
从那里返回(文件名,文件内容)的元组,您可以从那里附加文件名。
df.groupBy("FileName","A").count() ##sum()
关于apache-spark - 在 Spark 中读取多个文件并在追加之前对其进行处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37418599/
在 Python 中,我可以附加到一个空数组,例如: >>> a = [] >>> a.append([1,2,3]) >>> a.append([1,2,3]) >>> a [[1, 2, 3],
我正在阅读(并慢慢尝试)在 php 中与 txt 文件交互的方法。我已经尝试过追加,它将数据添加到txt文件的末尾但是 a+ 与 a 有何不同 在 w3schools 中它说: 一个 append 。
我想执行一个非常简单的操作:合并两个形状文件。具体来说,我有美国每个州的人口普查区域形状文件,我想将它们合并到一个形状文件中。最终,我想获取组合的形状文件并在一组经纬度坐标上执行叠加,以确定我的坐标属
当我们使用 append 和 cut 运算符时会出现什么问题? append2([],L,L):-!. append2([H|T],L,[H|TL]):-append2(T,L,TL).
我有一个函数处理程序: function handler(data) { console.log(`1. ${data}`); } 我想在相同的范围内附加或重新定义,如下所示: let old
我目前正在使用很多这样的内容来重构应用程序: StringBuffer buff1 = new StringBuffer(""); buff1.append("some value A"); buff
我正在编写一些代码来对不同类型的啤酒进行一些计算。我有一个使用 GUI 的主类,并有一个 JTextArea 来打印输出。在主类中调用追加工作得很好,但是当我尝试从外部类调用追加来写入文本区域时...
我有一个像这样的 jquery block 。渲染 html 后,我看到 标签立即打开和关闭,同样的方式,立即打开和关闭。我在他的代码中做错了什么吗?有更好的方法来实现这个吗? 谢谢 $.each(f
我在尝试克隆父 div 然后将其直接附加到其自身下方时遇到一个问题。只要最后一个节点是,我的函数就可以正常工作如此选择: A B C 将导致 A A.1
我正在尝试在现有 td 末尾附加一个 td。下面是以下代码(我在 jqgrid 中执行)。 $("#list_toppager_center tr:first td:eq(7)").append("C
我正在尝试在 jQuery 中的以下追加方法上设置超时。我尝试过的所有操作都不断返回Uncaught SyntaxError:意外的标识符 这是我的代码: setTimeout("$('#us
我想用 c 打开一个文件,然后向其中添加一些内容并关闭它。我只是想知道 fopen 中的 a+ 自动导航到文件的最后一个字符。 最佳答案 是的。 为什么不尝试一下,或者阅读一下手册呢? 这里是:
在我的代码中,我有一个输入字段,它是一个循环的值。 用户在第一个字段中输入所需的值。 用户单击按钮/徽章(单击我添加项目符号)以附加到模式。 根据字段中的输入值显示带有项目符号数的模态框。 例如,如果
是否可以使用 QUrlQuery 在不对 url 进行 strip 化的情况下 append 数据? 使用下面的代码将删除“?”之后的所有内容和结果是: https://foobar.com/Info
好吧,我正在为 iPhone 制作一个简单的聊天应用程序,我很幸运,它运行良好并且看起来很棒但是我有一些问题,一个这样的问题是我向用户显示富文本的方式.. 目前我有一个荒谬的系统,它是这样工作的 {发
在 C# 中格式化我做的字符串: string a = String.Format("/blah/blah/{0}_{1}/blah.html", int1, int2) 在Python中,它会自动将
我有一个 300 万行的 .txt 文件。该文件包含如下所示的数据: # RSYNC: 0 1 1 0 512 0 #$SOA 5m localhost. hostmaster.localhost.
我有一个问题。可以删除使用 javascript 附加添加的元素? 当我尝试删除添加的跨度时,什么也没有发生。 像这样: $(document).ready(function(){ $('#
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
到目前为止这是我的代码,我想做的是说用户输入 1 2 3 然后按 -1,他或她将被要求输入另一组数字,比如 9 8 7,我的程序是什么假设要做的是将它们显示为 1 2 3 9 8 7,而是像这样显示它
我是一名优秀的程序员,十分优秀!