protocol-buffers - Avro 模式演变是否需要访问新旧模式？-6ren

protocol-buffers - Avro 模式演变是否需要访问新旧模式？

转载作者：行者123 更新时间：2023-12-04 01:23:56

26

4

如果我使用模式版本 1 序列化对象，然后将模式更新到版本 2(例如通过添加字段) - 稍后反序列化对象时是否需要使用模式版本 1？理想情况下，我只想使用模式版本 2，并使反序列化的对象具有在对象最初序列化后添加到模式的字段的默认值。

也许一些代码会更好地解释......

架构1:

{"type": "record",
 "name": "User",
 "fields": [
  {"name": "firstName", "type": "string"}
 ]}

架构2:

{"type": "record",
 "name": "User",
 "fields": [
  {"name": "firstName", "type": "string"},
  {"name": "lastName", "type": "string", "default": ""}
 ]}

使用通用的非代码生成方法:

// serialize
ByteArrayOutputStream out = new ByteArrayOutputStream();
Encoder encoder = EncoderFactory.get().binaryEncoder(out, null);
GenericDatumWriter writer = new GenericDatumWriter(schema1);
GenericRecord datum = new GenericData.Record(schema1);
datum.put("firstName", "Jack");
writer.write(datum, encoder);
encoder.flush();
out.close();
byte[] bytes = out.toByteArray();

// deserialize
// I would like to not have any reference to schema1 below here
DatumReader<GenericRecord> reader = new GenericDatumReader<GenericRecord>(schema2);
Decoder decoder = DecoderFactory.get().binaryDecoder(bytes, null);
GenericRecord result = reader.read(null, decoder);

导致 EOFException。使用 jsonEncoder导致 AvroTypeException。

我知道如果我将 schema1 和 schema2 都传递给 GenericDatumReader 它将起作用构造函数，但我不想保留所有以前模式的存储库，也不想以某种方式跟踪使用哪个模式来序列化每个特定对象。

我还尝试了代码生成方法，首先使用从 schema1 生成的 User 类序列化到文件:

User user = new User();
user.setFirstName("Jack");
DatumWriter<User> writer = new SpecificDatumWriter<User>(User.class);
FileOutputStream out = new FileOutputStream("user.avro");
Encoder encoder = EncoderFactory.get().binaryEncoder(out, null);
writer.write(user, encoder);
encoder.flush();
out.close();

然后将架构更新到版本 2，重新生成 User 类，并尝试读取文件:

DatumReader<User> reader = new SpecificDatumReader<User>(User.class);
FileInputStream in = new FileInputStream("user.avro");
Decoder decoder = DecoderFactory.get().binaryDecoder(in, null);
User user = reader.read(null, decoder);

但它也会导致 EOFException。

只是为了比较，我正在尝试做的似乎适用于 protobufs ......

格式:

option java_outer_classname = "UserProto";
message User {
    optional string first_name = 1;
}

连载:

UserProto.User.Builder user = UserProto.User.newBuilder();
user.setFirstName("Jack");
FileOutputStream out = new FileOutputStream("user.data");
user.build().writeTo(out);

添加可选的 last_name 以格式化、重新生成 UserProto 和反序列化:

FileInputStream in = new FileInputStream("user.data");
UserProto.User user = UserProto.User.parseFrom(in);

正如预期的那样， user.getLastName()是空字符串。

Avro 可以做这样的事情吗？

最佳答案

Avro 和 Protocol Buffers 有不同的处理版本控制的方法，哪种方法更好取决于您的用例。

在 Protocol Buffer 中，您必须用数字明确标记每个字段，这些数字与字段的值一起存储在二进制表示中。因此，只要您从不更改后续模式版本中数字的含义，您仍然可以解码以不同模式版本编码的记录。如果解码器看到一个它无法识别的标签号，它可以简单地跳过它。

Avro 采用了不同的方法:没有标签号，二进制布局完全由执行编码的程序决定——这是作者的模式。 (一个记录的字段只是简单地以二进制编码一个接一个地存储，没有任何标记或分隔符，顺序由作者的模式决定。)这使编码更加紧凑，并且您不必手动维护标签中的标签架构。但这确实意味着对于读取，您必须知道写入数据的确切模式，否则您将无法理解它。

如果了解作者的模式对于解码 Avro 至关重要，那么读者的模式是它之上的一层漂亮。如果您在需要读取 Avro 数据的程序中进行代码生成，您可以从读取器的架构中执行代码生成，这样您就不必在每次编写器的架构更改时重新生成它(假设它以一种可以更改的方式进行更改)得到解决)。但这并不能使您不必知道作者的架构。

优点缺点

Avro 的方法在您有许多已知具有完全相同模式版本的记录的环境中很好，因为您可以在文件开头的元数据中包含模式，并且知道接下来的一百万条记录可以全部使用该模式解码。这在 MapReduce 上下文中经常发生，这解释了为什么 Avro 来自 Hadoop 项目。

Protocol Buffers 的方法可能更适合 RPC，其中单个对象通过网络发送(作为请求参数或返回值)。如果你在这里使用 Avro，你可能有不同的客户端和不同的服务器，它们都具有不同的架构版本，所以你必须用它正在使用的 Avro 架构版本标记每个二进制编码的 blob，并维护一个架构注册表。那时您可能已经使用了 Protocol Buffers 的内置标记。

关于protocol-buffers - Avro 模式演变是否需要访问新旧模式？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12165589/

26

4

0

文章推荐： cron - 每个月的第二个和第四个星期六运行

文章推荐： vim - 在 Vim 中定位匹配括号/括号的 Action ？

javascript - php 访问 mqsql 或 html 访问 json 或 html 访问 xml ？哪个更快？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
powershell - API 访问 PowerShell Web 访问？
PowerShell Web Access 允许您通过 Web 浏览器运行 PowerShell cmdlet。它显示了一个基于 Web 的控制台窗口。有没有办法运行 cmdlet 而无需在控制台窗
c# - 如何使用应用程序级身份验证/访问 token 访问 Sharepoint 文件？
我尝试在无需用户登录的情况下访问 Sharepoint 文件。我可以通过以下任一方式获取访问 token 方法一: var client = new RestClient("https://logi
soap - 使用 OAuth 访问 token 访问 SOAP 服务？
我目前正在尝试通过 Chrome 扩展程序访问 Google 服务。我的理解是，对于 JS 应用程序，Google 首选的身份验证机制是 OAuth。我的应用目前已成功通过 OAuth 向服务进行身份
C++ - 允许通过基类(接口(interface))访问，禁止通过派生类(具体实现)访问？
假设我有纯抽象类 IHandler 和派生自它的类: class IHandler { public: virtual int process_input(char input) = 0; };
css - 可以通过 URL 访问 CSS 文件，但不能从 HTML 访问
我有一个带有 ThymeLeaf 和 Dojo 的 Spring 应用程序，这给我带来了问题。当我从我的 HTML 文件中引用 CSS 文件时，它们在 Firebug 中显示为中止。但是，当我通过在地
javascript - 为什么我可以用 [val] 访问 js 对象，但不能用 .val 访问？
这个问题已经有答案了: JavaScript property access: dot notation vs. brackets? (17 个回答) 已关闭 6 年前。为什么这不起作用？ func
.htaccess - 仅允许通过 http 访问 robot.txt，其他通过 https 访问
我想将所有流量重定向到 https，只有 robot.txt 应该可以通过 http 访问。是否可以为 robot.txt 文件创建异常(exception)？我的 .htaccess 文件: R
oauth-2.0 - 无法使用有效的 oauth2 访问 token 访问 Linkedin 个人资料
我遇到了 LinkedIn OAuth2: "Unable to verify access token" 中描述的相同问题;但是，那里描述的解决方案并不能解决我的问题。我能够成功请求访问 toke
Docker 容器不能通过 localhost 访问，但可以通过 127.0.0.1 访问
问题我有一个暴露给 *:8080 的 Docker 服务容器. 我无法通过 localhost:8080 访问容器. Chrome /curl无限期挂断。但是如果我使用任何其他本地IP，我就可以访
python - 使用 OAuth 2.0 访问 token 访问 Gmail Imap
我正在使用 Google 的 Oauth 2.0 来获取用户的 access_token，但我不知道如何将它与 imaplib 一起使用来访问收件箱。最佳答案下面是带有 oauth 2.0 的 I
curl - 可以从 curl 访问 docker 服务，但不能从 postman/chrome 访问
我正在做 docker 入门指南:https://docs.docker.com/get-started/part3/#recap-and-cheat-sheet-optional docker-co
azure - 带有 Nginx 的 AKS 无法通过 IP 访问，只能通过 DNS 访问
我正在尝试使用静态 IP 在 AKS 上创建一个 Web 应用程序，自然找到了一个带有 Nginx ingress controller in Azure's documentation 的解决方案。
javascript - 为什么可以将 'module.exports' 作为 'exports' 访问，但不能使用 'module.id' 访问？
这是我在名为 foo.js 的文件中的代码。 console.log('module.exports:', module.exports) console.log('module.id:', modu
amazon-web-services - aws 访问 key ID 和 secret 访问 key
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
xcode - 从 iOS 5 访问 Twitter 时 OAuth 访问 token 失败
我正在使用 MGTwitterEngine"将 twitter 集成到我的应用程序中。它在 iOS 4.2 上运行良好。当我尝试从任何 iOS 5 设备访问 twitter 时，我遇到了身份验证 to
amazon-web-services - aws 访问 key ID 和 secret 访问 key
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
ios - 如果 Facebook 访问 token 过期，会生成新的 Facebook 访问 token 吗？
我正在使用以下 API 列出我的 Facebook 好友。 https://graph.facebook.com/me/friends?access_token= ??? 我想知道访问 token 过
google-app-engine - 尝试使用 API key 访问 BigQuery 时出错(简单 API 访问)
401 Unauthorized - Show headers - { "error": { "errors": [ { "domain": "global", "reas
django - 从 heroku 访问 s3 内容时，AWS 访问 key 显示在浏览器 url 中
我已经将我的 django 应用程序部署到 heroku 并使用 Amazon s3 存储桶存储静态文件，我发现从 s3 存储桶到 heroku 获取数据没有问题。但是，当我测试查看内容存储位置时，除

首页

博学

6Ren·AI

商城

protocol-buffers - Avro 模式演变是否需要访问新旧模式？