- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 avro 架构编写 Parquet 文件。但总是遇到这个问题。
Exception in thread "main" java.lang.NoSuchFieldError: DEFAULT_WRITER_VERSION
at org.apache.parquet.hadoop.ParquetWriter.<clinit>(ParquetWriter.java:46)
at com.ice.practice.AvroToParquet.main(AvroToParquet.java:52)
我的示例程序如下:我创建了一个 avro 模式,然后将其转换为 parquet 模式,然后在 parquewriter 的帮助下,我尝试使用 GenericRecords。
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.avro.Schema;
import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericRecord;
import org.apache.avro.generic.GenericRecordBuilder;
import org.apache.hadoop.fs.Path;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.avro.*;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.metadata.CompressionCodecName;
public class AvroToParquet {
public static void main(String[] args) throws IOException {
Schema aSchema = new Schema.Parser().parse(new File("d:\\emp.avsc"));
List<GenericData.Record> SourceRecords = new ArrayList<>();
int NoOfRecords = 10;
int NoOfColumns = 3;
for(int i=0;i<NoOfRecords;i++)
{
GenericData.Record recordHolder = new GenericData.Record(aSchema);
recordHolder.put("name", "emp"+i);
recordHolder.put("salary", (10000+(i*1000))+"");
recordHolder.put("dept", "java"+i);
SourceRecords.add(recordHolder);
}
MessageType pSchema = new AvroSchemaConverter().convert(aSchema);
@SuppressWarnings("deprecation")
AvroWriteSupport<GenericRecord> wSupport = new AvroWriteSupport<>(pSchema, aSchema);
CompressionCodecName cCodeName = CompressionCodecName.SNAPPY;
int blockSize = 256 * 1024 * 1024;
int pageSize = 64 * 1024;
Path outputPath = new Path("d:\\emp.parquet");
@SuppressWarnings("deprecation")
ParquetWriter<GenericRecord> pWriter = new ParquetWriter<GenericRecord>(outputPath,wSupport,cCodeName,blockSize,pageSize) {
};
for(GenericRecord record : SourceRecords)
{
pWriter.write(record);
}
pWriter.close();
}
}
avro 架构:
"type":"record",
"name":"employee",
"namespace":"ice.report",
"fields":[
{
"name":"name",
"type":"string"
},
{
"name":"salary",
"type":"string"
},
{
"name":"dept",
"type":"string"
}
]
}
请告诉我如何解决这个问题。
最佳答案
我建议您不要使用过时的构造函数。事实上,它们被弃用是有原因的。相反,尝试 AvroParquetReader
和 AvroParquetWriter
类。详细解释请引用this线。同时,我向您建议以下解决方案:
Java 代码: ParquetAvroHandler.java
package com.parquet.avro;
import org.apache.avro.Schema;
import org.apache.avro.generic.GenericData;
import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.parquet.avro.AvroParquetReader;
import org.apache.parquet.avro.AvroParquetWriter;
import org.apache.parquet.hadoop.ParquetFileWriter;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.metadata.CompressionCodecName;
import org.apache.parquet.hadoop.util.HadoopInputFile;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import java.io.IOException;
import java.io.InputStream;
public class ParquetAvroHandler
{
private static final Schema SCHEMA;
private static final String SCHEMA_PATH = "path/to/your/schema.avsc";
private static final Path OUTPUT_PATH = new Path("result.parquet");
private static final Logger LOGGER = LoggerFactory.getLogger(ParquetAvroHandler.class);
static
{
try (InputStream inStream = ParquetAvroHandler.class.getResourceAsStream(SCHEMA_PATH))
{
SCHEMA = new Schema.Parser().parse(IOUtils.toString(inStream, "UTF-8"));
}
catch (Exception e)
{
LOGGER.error("Can't read SCHEMA file from {}", SCHEMA_PATH);
LOGGER.error(e.getLocalizedMessage());
throw new RuntimeException("Can't read SCHEMA file from " + SCHEMA_PATH, e);
}
}
/**
* Reads an existing Apache Avro-based Parquet file from the
* specified location and prints it into the system console
*
* @param filePath path to the input file
* @throws IOException
**/
public void read(Path filePath) throws IOException
{
Configuration configuration = new Configuration();
HadoopInputFile inputFile = HadoopInputFile.fromPath(filePath, configuration);
try (ParquetReader<GenericData.Record> reader = AvroParquetReader
.<GenericData.Record>builder(inputFile)
.withConf(configuration)
.build())
{
GenericData.Record record;
while ((record = reader.read()) != null)
{
System.out.println(record);
}
}
}
/**
* Creates a new Apache Avro-based Parquet file or overwrites the existing one
*
* @param records set of records to write to the file
* @param filePath path to the output file
* @throws IOException
**/
public void write(List<GenericData.Record> records, Path filePath) throws IOException
{
try (ParquetWriter<GenericData.Record> writer = AvroParquetWriter
.<GenericData.Record>builder(filePath)
.withSchema(SCHEMA)
.withConf(new Configuration())
.withCompressionCodec(CompressionCodecName.SNAPPY)
.withWriteMode(ParquetFileWriter.Mode.OVERWRITE)
.build())
{
for (GenericData.Record record : records)
{
writer.write(record);
}
}
}
public static void main(String[] args) //throws IOException
{
try
{
GenericData.Record record = new GenericData.Record(SCHEMA);
record.put("Name", "John");
record.put("Id", 1);
record.put("PhoneNumber", "555-555-5551");
record.put("ZipCode", 88888);
record.put("isAlive", true);
records.add(record);
record = new GenericData.Record(SCHEMA);
record.put("Name", "Jane");
record.put("Id", 2);
record.put("PhoneNumber", "555-555-5552");
record.put("ZipCode", 99999);
record.put("isAlive", false);
records.add(record);
ParquetAvroHandler handler = new ParquetAvroHandler();
handler.write(records, OUTPUT_PATH);
handler.read(OUTPUT_PATH);
}
catch (Exception e)
{
LOGGER.error(e.getMessage());
e.printStackTrace();
}
}
}
Avro 架构: schema.avsc
{
"namespace": "example.avro",
"type": "record",
"name": "org.apache.avro.file.Header",
"fields":
[
{"name": "Name", "type": "string"},
{"name": "Id", "type": ["int", "null"]},
{"name": "PhoneNumber", "type": ["string", "null"]},
{"name": "ZipCode", "type": ["int", "null"]},
{"name": "isAlive", "type": "boolean"}
]
}
POM 文件: pom.xml
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet</artifactId>
<version>1.10.0</version>
<name>Sample Name</name>
<description>Sample Description</description>
<dependencies>
<!-- Generic -->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-io</artifactId>
<version>1.3.2</version>
</dependency>
<!-- Avro & Hadoop -->
<dependency>
<groupId>org.apache.avro</groupId>
<artifactId>avro</artifactId>
<version>1.8.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.0.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
<!-- Parquet -->
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-avro</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-column</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-common</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-encoding</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-format</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-hadoop</artifactId>
<version>1.10.0</version>
</dependency>
</dependencies>
</project>
日志配置: log4j.properties
# Root logger option
log4j.rootLogger=INFO, file, console
# Direct log messages to a log file
log4j.appender.file=org.apache.log4j.RollingFileAppender
log4j.appender.file.File=\systemlog.log
log4j.appender.file.MaxFileSize=10MB
log4j.appender.file.MaxBackupIndex=10
log4j.appender.file.layout=org.apache.log4j.PatternLayout
log4j.appender.file.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n
# Direct log messages to console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.Target=System.out
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n
关于java - 写入 Parquet 文件时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52038776/
SQLite、Content provider 和 Shared Preference 之间的所有已知区别。 但我想知道什么时候需要根据情况使用 SQLite 或 Content Provider 或
警告:我正在使用一个我无法完全控制的后端,所以我正在努力解决 Backbone 中的一些注意事项,这些注意事项可能在其他地方更好地解决......不幸的是,我别无选择,只能在这里处理它们! 所以,我的
我一整天都在挣扎。我的预输入搜索表达式与远程 json 数据完美配合。但是当我尝试使用相同的 json 数据作为预取数据时,建议为空。点击第一个标志后,我收到预定义消息“无法找到任何内容...”,结果
我正在制作一个模拟 NHL 选秀彩票的程序,其中屏幕右侧应该有一个 JTextField,并且在左侧绘制弹跳的选秀球。我创建了一个名为 Ball 的类,它实现了 Runnable,并在我的主 Draf
这个问题已经有答案了: How can I calculate a time span in Java and format the output? (18 个回答) 已关闭 9 年前。 这是我的代码
我有一个 ASP.NET Web API 应用程序在我的本地 IIS 实例上运行。 Web 应用程序配置有 CORS。我调用的 Web API 方法类似于: [POST("/API/{foo}/{ba
我将用户输入的时间和日期作为: DatePicker dp = (DatePicker) findViewById(R.id.datePicker); TimePicker tp = (TimePic
放宽“邻居”的标准是否足够,或者是否有其他标准行动可以采取? 最佳答案 如果所有相邻解决方案都是 Tabu,则听起来您的 Tabu 列表的大小太长或您的释放策略太严格。一个好的 Tabu 列表长度是
我正在阅读来自 cppreference 的代码示例: #include #include #include #include template void print_queue(T& q)
我快疯了,我试图理解工具提示的行为,但没有成功。 1. 第一个问题是当我尝试通过插件(按钮 1)在点击事件中使用它时 -> 如果您转到 Fiddle,您会在“内容”内看到该函数' 每次点击都会调用该属
我在功能组件中有以下代码: const [ folder, setFolder ] = useState([]); const folderData = useContext(FolderContex
我在使用预签名网址和 AFNetworking 3.0 从 S3 获取图像时遇到问题。我可以使用 NSMutableURLRequest 和 NSURLSession 获取图像,但是当我使用 AFHT
我正在使用 Oracle ojdbc 12 和 Java 8 处理 Oracle UCP 管理器的问题。当 UCP 池启动失败时,我希望关闭它创建的连接。 当池初始化期间遇到 ORA-02391:超过
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve
引用这个plunker: https://plnkr.co/edit/GWsbdDWVvBYNMqyxzlLY?p=preview 我在 styles.css 文件和 src/app.ts 文件中指定
为什么我的条形这么细?我尝试将宽度设置为 1,它们变得非常厚。我不知道还能尝试什么。默认厚度为 0.8,这是应该的样子吗? import matplotlib.pyplot as plt import
当我编写时,查询按预期执行: SELECT id, day2.count - day1.count AS diff FROM day1 NATURAL JOIN day2; 但我真正想要的是右连接。当
我有以下时间数据: 0 08/01/16 13:07:46,335437 1 18/02/16 08:40:40,565575 2 14/01/16 22:2
一些背景知识 -我的 NodeJS 服务器在端口 3001 上运行,我的 React 应用程序在端口 3000 上运行。我在 React 应用程序 package.json 中设置了一个代理来代理对端
我面临着一个愚蠢的问题。我试图在我的 Angular 应用程序中延迟加载我的图像,我已经尝试过这个2: 但是他们都设置了 src attr 而不是 data-src,我在这里遗漏了什么吗?保留 d
我是一名优秀的程序员,十分优秀!