apache-spark - 如何在 Spark2.4 的 spark2-shell 中读取 Avro 文件？-6ren

apache-spark - 如何在 Spark2.4 的 spark2-shell 中读取 Avro 文件？

转载作者：行者123 更新时间：2023-12-04 10:41:53

28

4

我们在 Spark2.4 中的 spark2-shell 中读取 avro 文件时遇到问题
任何指针都会有很大帮助。

我们在 spark2.3 中使用以下方法读取 avro 文件，但在 Spark2.4 中已删除此支持:

spark2-shell --jars /tmp/spark/spark-avro_2.11-4.0.0.jar
import org.apache.avro.Schema
spark.sqlContext.sparkContext.hadoopConfiguration.set("avro.mapred.ignore.inputs.without.extension",     "true")
val df = spark.read.format("com.databricks.spark.avro").option("header", "true").option("mode", "DROPMALFORMED").load("<DIR_PATH_FOR_AVRO>")

Spark 2.4 文档提供了以下详细信息:

( https://spark.apache.org/docs/latest/sql-data-sources-avro.html )

./bin/spark-shell --packages org.apache.spark:spark-avro_2.12:2.4.4

但是我们在使用这种方法时遇到以下异常:

Exception in thread "main" java.lang.RuntimeException: 
[unresolved dependency: org.apache.spark#spark-avro_2.12;2.4.4: not found]
 at org.apache.spark.deploy.SparkSubmitUtils$.resolveMavenCoordinates(SparkSubmit.scala:1306)
 at org.apache.spark.deploy.DependencyUtils$.resolveMavenDependencies(DependencyUtils.scala:54)
 at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:315)
 at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:143)
 at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
 at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:924)
 at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:933)
 at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

也试过:

spark2-shell --packages org.apache.spark:spark-avro_2.12:2.4.4 --jars /tmp/spark/spark-avro_2.12-2.4.0.jar

最佳答案

“线程“main”中的异常 java.lang.RuntimeException: [ Unresolved 依赖项:org.apache.spark#spark-avro_2.12;2.4.4: not found]
..."似乎是在 https://repo1.maven.org/maven2/ 访问中央 maven 存储库的问题，可能是因为您的环境正在使用代理。

所以我认为你走在正确的道路上 - 你可以手动下载一个 jar spark-avro_2.1x-2.4.x.jar来自 https://repo1.maven.org/maven2/org/apache/spark/spark-avro_2.xx/2.4.x/ ，将其传输到您的节点，然后使用 spark2-shell --jar spark-avro_2.xx-2.4.x.jar启动 REPL shell。

看起来您使用的是 Cloudera 发行版 for Spark 2.4。它的最新维护版本是 2.4.2，它仍然基于 Scala 2.11，所以我认为你正在寻找 jar spark-avro_2.11-2.4.2.jar .

有了那个 jar ，事情对我来说似乎没问题:

$ spark2-shell --jars ~/.m2/repository/org/apache/spark/spark-avro_2.11/2.4.2/spark-avro_2.11-2.4.2.jar
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://xxxxxxx.xxxnet:4056
Spark context available as 'sc' (master = yarn, app id = application_xxxxxxxxxxxxx_xxxxx).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.0.cloudera2
      /_/

Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_221)
Type in expressions to have them evaluated.
Type :help for more information.

scala> val df = spark.read.format("avro").load("/some/hdfs/path/kilo_sample.avro")
df: org.apache.spark.sql.DataFrame = [registration_dttm: string, id: bigint ... 11 more fields]

scala> df.show(false)
+--------------------+---+----------+---------+------------------------+------+---------------+-------------------+----------------------+----------+---------+----------------------------+----------------------------+
|registration_dttm   |id |first_name|last_name|email                   |gender|ip_address     |cc                 |country               |birthdate |salary   |title                       |comments                    |
+--------------------+---+----------+---------+------------------------+------+---------------+-------------------+----------------------+----------+---------+----------------------------+----------------------------+
|2016-02-03T07:55:29Z|1  |Amanda    |Jordan   |ajordan0@com.com        |Female|1.197.201.2    |6759521864920116   |Indonesia             |3/8/1971  |49756.53 |Internal Auditor            |1E+02                       |
|2016-02-03T17:04:03Z|2  |Albert    |Freeman  |afreeman1@is.gd         |Male  |218.111.175.34 |null               |Canada                |1/16/1968 |150280.17|Accountant IV               |                            |
...
|2016-02-03T10:30:36Z|20 |Rebecca   |Bell     |rbellj@bandcamp.com     |Female|172.215.104.127|null               |China                 |          |137251.19|                            |                            |
+--------------------+---+----------+---------+------------------------+------+---------------+-------------------+----------------------+----------+---------+----------------------------+----------------------------+
only showing top 20 rows

scala>

如果您在尝试此版本后仍然遇到问题，请使用完整的堆栈跟踪更新您的问题，以便我们可以确切地看到问题所在。

关于apache-spark - 如何在 Spark2.4 的 spark2-shell 中读取 Avro 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59898154/

28

4

0

文章推荐： php - 在字符串上调用成员函数 addEagerConstraints()

文章推荐： python - 将自定义文件格式读取到 Dask 数据框

avro - 如何在不再次定义的情况下在另一种 Avro 类型中使用 Avro 类型？
我在名为 commonSourceMetadata.avsc 的 json 文件中定义了一个名为 "some.package.SourceMetadata" 的 Avro 类型: { "type"
avro - Avro 中特定数据类型的最佳实践
我很想了解在 Avro 中编码两种非常特定类型的数据的最佳实践:时间戳和 IP 地址。我遇到了时间戳 ( https://issues.apache.org/jira/browse/AVRO-739
avro - 最大尺寸限制在 avro
如何在 Avro Schema 生成中为数据类型设置最大大小/长度限制。例如:在模式中，我想指定一个字段，该字段采用最大 len 25 的字符串。最佳答案我相信您可以使用“固定”avro 类型并指
avro - Avro 是否支持必填字段？
即是否可以使字段需要类似于 ProtoBuf: 消息搜索请求{ 需要字符串查询 = 1; } 最佳答案默认情况下，Avro 中的所有字段都是必需的。照原样 mentioned在官方文档中，如果你想
hadoop - Flume:Directory to Avro -> Avro to HDFS - Not valid avro after transfer
我有用户编写 AVRO 文件，我想使用 Flume 将所有这些文件移动到使用 Flume 的 HDFS 中。所以我以后可以使用 Hive 或 Pig 来查询/分析数据。在客户端我安装了 flume
avro - 为具有多种记录类型的数组创建 avro 模式？
我正在为似乎具有多个对象数组的 JSON 有效负载创建 avro 模式。我不确定如何在模式中表示这一点。有问题的关键是 content: { "id": "channel-id", "name
avro - 您可以将数据附加到现有的 Avro 数据文件中吗？
似乎没有任何方法可以将数据附加到现有的 Avro 序列化文件中。我想让多个进程写入一个 avro 文件，但看起来每次打开它时，我都会从头开始。我不想读入所有数据，然后再将其写回。使用 ruby
avro - Apache Avro 架构示例和文档
我试图定义一个不太平凡的 Avro 模式，但收效甚微；当它不会抛出架构语法错误时，它不会生成我试图在架构中定义的所有类型。是否有 avsc 定义的可能内容的完整规范？我一直根据我从 Doc 规范中理
Avro-Tools JSON 到 Avro 架构失败 : org. apache.avro.SchemaParseException:未定义名称:
我正在尝试使用 avro-tools-1.7.4.jar create schema 命令创建两个 Avro 模式。我有两个 JSON 模式，如下所示: { "name": "TestAvro",
hadoop - 将表的属性从 avro.schema.literal 设置为 avro.schema.url 后，Hive avro 表架构未更新
首先，我创建了一个如下所示的 avro hive 表。 CREATE EXTERNAL TABLE user STORED AS AVRO LOCATION '/work/user' TBLPROPE
hadoop - Avro 序列化和 Avro 格式的区别
我正在读一本书 Hadoop application architectures，这本书很老但很有趣，在阅读时，我注意到 Avro 被认为是数据序列化框架，而 Parquet 被认为是列数据格式。我
avro - 到目前为止，Apache Avro 中代码日期字段的最佳实践是什么？
我一直在四处寻找，看到了 jira https://issues.apache.org/jira/browse/AVRO-739对于这个问题，但我对用户文档中的日期时间的 avro 支持没有更好的了解
scala - 为什么在我使用 com.databricks.spark.avro 时必须添加 org.apache.spark.avro 依赖才能在 Spark2.4 中读/写 avro 文件？
我尝试在安装了 Spark 2.4.8 的 Cloud Dataproc 集群 1.4 上运行我的 Spark/Scala 代码 2.3.0。我在读取 avro 文件时遇到错误。这是我的代码: spa
avro - 如何在 Avro 中将记录与 map 混合？
我正在处理 JSON 格式的服务器日志，我想以 Parquet 格式将我的日志存储在 AWS S3 上(并且 Parquet 需要 Avro 模式)。首先，所有日志都有一组共同的字段，其次，所有日志都
java - 为什么 avro 无法从 .avro 文件中获取架构？
这是来自教程点的解串器。 public class Deserialize { public static void main(String args[]) throws Exception{
avro - 为什么 avro 生成的 java 代码有这么多不推荐使用的字段
我正在使用 avro-maven-plugin 1.8.1 从 schema 生成 java 代码，所有字段都是公共(public)的且已弃用，如下所示: public class data_el
avro - 在 Avro IDL 中，如何导入外部提供的架构？
一个简单的例子说明了我的问题。本质上，我正在处理一个跨多个存储库拆分代码的大型项目。在 repo 1 中，在 .avdl 文件中定义了一个 Avro 模式“S1”，该文件被编译到其 Avro 生成的
c - 通过套接字发送 avro(avro c) 编码数据
通过套接字发送avro(avro c)编码数据我正在尝试将 avro 编码数据转换为字节数组(使用 memcpy)后通过套接字发送。我所做的如下所示 /客户端:client.c/ avro_datum
java - 如何在压缩的 avro 文件中获取每个 avro 记录的开始和结束？
我的问题是这样的。我有一个 2GB 的压缩 avro 文件，HDFS 上存储了大约 1000 条 avro 记录。我知道我可以编写代码来“打开这个 avro 文件”并打印出每条 avro 记录。我的问
java - Kafka Avro 序列化器和反序列化器异常。 Avro 支持的类型
我看到以下错误 exception Unsupported Avro type. Supported types are null, Boolean, Integer, Long, Float, Do

首页

博学

6Ren·AI

商城

apache-spark - 如何在 Spark2.4 的 spark2-shell 中读取 Avro 文件？