gpt4 book ai didi

java - 处理自定义文件格式时,InputFormat 应该如何编码?

转载 作者:可可西里 更新时间:2023-11-01 16:17:14 27 4
gpt4 key购买 nike

尽管这是一个更笼统的问题,但我无法在此处找到有关特定情况的详细帮助。我有大量大文件(每个平均 2GB)。这些文件包含以自定义格式编码的条目,必须由另一个库读取以解析为单独的条目。现在我想用 MapReduce 来解析这些文件,但是默认的 InputFormat 和 InputSplit 逐行处理文件,这不是我想要的。似乎我必须指定如何拆分文件(每个拆分应包含一定数量的条目)以及如何生成记录(每个条目应映射到键/值>对)。

为了实现这一点,我应该覆盖哪些方法?

最佳答案

这可以通过为此输入文件编写自定义输入格式来完成1. 您应该设置拆分的开始和结束时间 1.1 可以设置行首和行尾2. 用于此拆分的记录读取器,用于读取拆分内的记录。

下面是一个读取 XML 的例子。这应该让你开始。 XML File Processing

关于java - 处理自定义文件格式时,InputFormat 应该如何编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17801248/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com