- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个宽度为 100 字节的文本文件。以下是结构。我需要读取 JavaRDD 中的数据。
RecType - String 1 Byte
Date - String 8 byte
Productnumber - String 15 byte
TAG - String 11 byte
Filler1 - String 1 byte
Contract - String 11 byte
Code - String 3 byte
Version - String 3 byte
newline - String 1 byte
FILENAME -String 25 byte
Recnumber - String 4 byte
文件中的示例数据
020190718000000000000001CHATHOLDER SUBCONTRACT1MNV3.0
LOGFILEGENAT07312019050AM00001020190718000000000000001CHATHOLDER SUBCONTRACT1MNV3.0
LOGFILEGENAT07312019050AM00002020190718000000000000001CHATHOLDER SUBCONTRACT1MNV3.0
LOGFILEGENAT07312019050AM00003020190718000000000000002CHATHOLDER SUBCONTRACT1MNV3.0
LOGFILEGENAT07312019051AM00004
如果您注意到每条记录都在一行中开始并在下一行结束。从下一个字节开始下一个记录。文件中有4条以字符串020190718开头的记录。
请问如何读取JavaRDD中的记录?
我在努力
JavaRDD1 = SparkUtils.getSession().read().textFile(filepath)
javaRDD()
map(x -> {return FunctiontoParse(x);});
但它一次只考虑一行,而不是读取整条记录。
请帮忙。
最佳答案
您可能想要 see this post.如果一切都适合作为字符串,则使用 wholeTextFile()
将起作用。如果您希望它保持二进制,则需要将其读取为二进制。我用过 JavaSparkContext.binaryFiles(filepath,numPartitions)
反而。这会将整个文件读取为字节,并让您根据需要对其进行解析。
JavaSparkContext jsc = JavaSparkContext.fromSparkContext(SparkContext.getOrCreate());
//from here each file gets on record in the resulting RDD. Each Record is a filename, file_contents pair. Each record has the contents of an entire file.
JavaPairRDD<String, PortableDataStream> rawBinaryInputFiles = jsc.binaryFiles(HDFSinputFolder,numPartitions);
//now to use your function to parse each file. Keep in mind, each record has the contents of an entire file,
//you will need to parse out each record. But since it's fixed width by bytes, it should be pretty simple.
//Create a custom wrapper object to hold the values and populate.
JavaRDD<YourCustomWrapperObject> records = rawBinaryInputFiles.flatMap(new FlatMapFunction<Tuple2<String,PortableDataStream>, YourCustomWrapperObject>() {
@Override
public Iterator<YourCustomWrapperObject> call(Tuple2<String, PortableDataStream> t) throws Exception {
List<YourCustomWrapperObject> results = new ArrayList<YourCustomWrapperObject>();
byte[] bytes = t._2().toArray(); //convert PortableDataStream to byte array.
//best option here IMO is to create a wrapper object, populate it from the byte array and return it
YourCustomWrapperObject obj = new YourCustomWrapperObject();
//populate....
results.add(obj);
return results;
}
});
关于java - 将带有换行符的固定长度的文本文件作为属性值之一读入 JavaRDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57294619/
我有一个加载有默认值的元素。后来,我通过 jQuery 的 input.val("different value") 更改了该值。 . 当我 console.log() 元素时,我在 firebug
我们在 DropDownListFor(ASP.NET MVC3 版本)中发现了奇怪的行为。它在下拉列表中选择 ViewBag 属性值而不是 Model 属性值。 模型: public class C
寻找一种方法将描述字段添加到 Magento 中的单个属性值。请注意,我指的是属性值选项,而不是实际的属性本身。 举个例子: 属性=颜色 属性值:红、绿、蓝 我想为 3 种颜色中的每一种添加一个描述字
我知道如果我们知道注释类,我们可以轻松获取特定的注释并访问其属性。例如: field.getAnnotation(Class annotationClass) 它将返回特定注释接口(interface
我正在尝试报告我创建的椭圆形 div 的边框半径值,但我得到了一个未定义的返回值。谁能解释为什么?我是犯了一个简单的错误还是我的代码有问题?谢谢你! CSS3
我有两个表: Bike__________________________ Kiosk 带列: BikeID, Location_________________ KioskID,
我在 Java .properties 文件中有一个值需要以反冲结束。属性值应该是“\\server\folder\”,我这样输入值: name=\\\\server\\folder\\ 结尾的反斜杠
我创建了一个 DeformableShape 对象并通过 for 循环创建它的实例。我正在调用对象的 setPosition 方法并更改其枢轴属性,但所有实例的值都会更新...假设我有对象 A 并且我
是否可以在类名中为 CSS 传递参数?例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中,X 应为 10。 最佳答案 不,不是。我们最接近的是 attr()
是否可以在类名中为 CSS 传递参数?例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中,X 应为 10。 最佳答案 不,不是。我们最接近的是 attr()
是否可以在类名中为 CSS 传递参数?例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中,X 应为 10。 最佳答案 不,不是。我们最接近的是 attr()
我在使用 C# 中的数据注释时遇到了问题。我正在使用自定义必需属性和范围属性,我想将一个对象设置为错误消息。 [MyOwnRequired(ErrorCode=GlobalMessages.Messa
是否可以在类名中为 CSS 传递参数?例如: .mrg-t-X { margin-top: Xpx; } Test 在此示例中,X 应为 10。 最佳答案 不,不是。我们最接近的是 attr()
我知道如果我们知道注解类,我们可以很容易地得到具体的注解并访问它的属性。例如: field.getAnnotation(Class annotationClass) 这将返回特定注解接口(interf
我正在使用 sinon v4.1.2。根据文档( http://sinonjs.org/releases/v4.1.2/sandbox/ ),我应该能够使用以下内容设置属性: sandbox.stub
我想在我的应用程序中将一些 valraibles 的值外部化,它使用 spring 到类似属性文件的东西。 我怎样才能做到这一点? 最佳答案 Spring 提供了一个 BeanFactoryPostP
我有这个界面 public interface IMyInterface { IEnumerable Params { get; } } 在哪里 MyParamInfo 是 public c
我有一个 xml 字符串,其中包含我想要屏蔽的某些值。我还有一个黑名单列表,其中包含我要屏蔽的元素或属性的名称。我如何使用 Linq 执行此操作? var BlackList=new List{"ss
以下是读入XmlDocument的XML文件 我需要的是存储在一些 TextBox 中的 'id' 属性值(“2015”) 这就是 XmlDocument 的加载方式 XmlDocume
IDE 对象检查器通过下拉 ColorBox 显示 TColor 属性,并且可以按图形单元中定义的名称 - clBlack 等选择颜色。问题是图形单元中定义的 clWeb 颜色不存在,并且我定义的任何
我是一名优秀的程序员,十分优秀!