数据测试实践：从一个bug开始的大数据引擎兼容性探索

转载作者：我是一只小鸟更新时间：2023-03-07 14:31:27

26

4

作者：京东零售李晓洁

我们常常忘记，天才也取决于其所能掌握的数据，即使阿基米德也无法设计出爱迪生的发明。——Ernest Dimnet 。

在大数据时代，精准而有效的数据对于每个致力于长期发展的组织来说都是重要资产之一，而数据测试更是不可或缺的一部分。数据测试不仅关注数据加工的代码逻辑，还要考虑大数据执行引擎带来的影响，因为各种引擎框架将对同一份数据产生不同的计算或检索结果。本文将从一个年度账单bug引入，讲解在数据测试实践中对大数据执行引擎兼容性差异的探索.

1、需求内容

京东-我的京东-年度账单是一年一次，以用户视角对在平台一年的消费情况进行总结。账单从购物，权益，服务等方面切入，帮助用户挖掘在自我难以认知的数据角度，通过这种方式让用户从账单中发掘打动内心的立意，并主动进行分享和传播。本次，我京年度账单以“2022购物印象”为主题，通过不同的数据维度组成村落故事线，用户以虚拟人物形象贯穿始终，用户浏览完故事线后，可生成购物印象.

年度账单其中一个报表为用户年度购买的小家电品类。该报表使用年度账单汇总表中的小家电品类集合字段，计算了2022年度某用户全年最后购买的两款小家电所在的品类。本文bug分享将围绕这个字段展开.

2、缺陷描述

缺陷描述：在APP层用户年度账单汇总模型app_my_jd_user_bill_year_sum中，对于小家电品类集合字段，APP表结果与手动计算结果不一致.

以用户'Mercury'、'乐乐1024'、'活力少年'的购买数据为例，上游ADM层以 array<string> 类型存储用户每月购买的小家电相关品类，如下图所示:

• 根据小家电品类集合字段定义，APP层应取这三个用户全年最后购买的2个品类，即'Mercury'在2022年11月购买的VR头戴显示器、电炒锅，'乐乐1024'在2022年10月购买的冲牙器、空气净化器，'活力少年'在2022年10月购买的VR头戴显示器、电炒锅。因此，经手动计算，APP层正确计算结果应为:

• 而APP层年度账单汇总表中的小家电集合品类如下，结果错误，不符合预期结果.

3、缺陷排查过程

1. 执行引擎兼容差异

测试排查中，首先发现了Hive和Spark引擎之间的语法兼容差异.

• 当使用APP层脚本中小家电品类集合口径构建SQL，手动对上游表执行查询时发现，Hive引擎得到的集合有序，执行结果正确:

• 使用Spark引擎执行查询时，集合乱序，执行结果错误:

2. 脚本梳理

缺陷原因为集合乱序导致的取数错误。每个用户在上游ADM存在12个数组对应12个月购买小家电品类的集合，需要集合函数（collect）将12个月分组数据倒序排序，汇合成1个列表，然后取列表前两个元素.

HQL提供两种分组聚合函数： collect_list() 和 collect_set() ，区别在于 collect_set() 会对列表元素去重。由于用户不同月购买的品类集合可能重复，因此脚本使用了 collect_set() .

然而 collect_set() 将导致集合乱序，集合中元素不再按月份倒序排列，取出List[0]和List[1]不是用户全年最后购买的两个小家电品类.

                        
                          SELECT
    user_pin,
    small_electrical_appliance_list,
    concat_ws('|', small_electrical_appliance_list[0], small_electrical_appliance_list[1]) AS small_electrical_appliance
FROM(
    SELECT
        user_pin,
        collect_set(concat_ws(',', small_electrical_appliance_list_split)) AS small_electrical_appliance_list
    FROM(
    SELECT
        dt,
        user_pin,
        small_electrical_appliance_list,
        concat_ws(',', small_electrical_appliance_list) AS small_electrical_appliance
    FROM adm_my_jd_user_bill_month
    WHERE
        dt >= '2022-01'
        AND dt <= '2022-12'
    ORDER BY dt DESC) tmp 
    lateral VIEW explode(SPLIT(small_electrical_appliance, ',')) tmp AS small_electrical_appliance_list_split
    GROUP BY user_log_acct )

3. 结论

• 计算脚本逻辑错误，不应使用 collect_set() 聚合分组.

• 在原生Hive/Spark中， collect_set() 函数均无法保证集合有序，而大数据平台Hive对集合计算有序。因此，该脚本在Hive引擎下可以达到生成全年最后购买两个小家电品类的预期目标，但spark引擎则无法得到正确结果.

• Hive执行效率较低，研发通常通过Spark引擎执行，最终导致结果错误.

4、大数据计算引擎兼容差异

1. collect_list()/collect_set() 在hive/spark和presto之间的区别

• collect_set() 与 collect_list() 在Presto中无法兼容.

• 替代函数： array_agg() ( https://prestodb.io/docs/current/functions/aggregate.html?highlight=array_agg#array_agg ) 。

Hive/Spark	Presto
collect_list()	array_agg()
collect_set()	array_distinct(array_agg())

2. 行转列函数在hive和presto之间的区别

• Hive使用 lateral VIEW explode() 执行行转列的操作，而Presto不支持该函数。这种单列的值转换成和student列一对多的行的值映射. 。

◦ Hive/Spark query

                        
                          lateral VIEW explode(SPLIT(small_electrical_appliance, ',')) tmp AS small_electrical_appliance_list_split

• Presto支持 UNNEST 来扩展array和map。文档：( https://prestodb.io/docs/current/migration/from-hive.html ) 。

◦ Presto query

                        
                          CROSS JOIN UNNEST(SPLIT(small_electrical_appliance, ',')) AS small_electrical_appliance_list_split;

3. 隐式转换在引擎之间的区别

• Hive/Spark支持包括字符串类型到数字类型在内的多种隐式转换，如将字符串'07'转化为数字7，然后进行比较操作.

◦ Hive隐式转换规则：详见链接 Allowed Implicit Conversions 。

• 虽然Presto也有自己的一套隐式类型转换规则包含在 public Optional<Type> coerceTypeBase(Type sourceType, String resultTypeBase) 方法中，但对数据类型的要求更为严格。一些在Hive中常见的数字与字符串进行比较的查询语句，Presto会直接抛类型不一致的错误.

◦ 下图为Hive和Presto的隐式转换规则，蓝色区域是Presto和Hive都支持的类型转换，绿色区域是Presto不支持但是Hive支持的类型转换，红色区域是两者都不支持的类型转换。可以看到，hive的隐式转换更为广泛，而presto尤其在字符类型的隐式转换中更为严格.

• 隐式转换示例:

                        
                          --Hive/Spark隐式转换
'07' >= 6 -- true (CAST('07' AS DOUBLE) >= CAST(6 AS DOUBLE))
'test' <> 1 -- NULL
'1' = 1.0 -- true

--Presto隐式转换
'07' >= 6 -- false (CAST('07' AS Varchar) >= CAST(6 AS Varchar))
'test' <> 1 -- true
'1' = 1.0 -- ERROR:io.prestosql.spi.PrestoException: Unexpected parameters (varchar(1), decimal(2,1)) for function $operator$equal. Expected: $operator$equal(T, T) T:comparable

最后此篇关于数据测试实践：从一个bug开始的大数据引擎兼容性探索的文章就讲到这里了,如果你想了解更多关于数据测试实践：从一个bug开始的大数据引擎兼容性探索的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐： MongoDB数组查询（$elemMatch）、更新操作(占位符$)详解

文章推荐： Pwn2OwnAustin2021CiscoRV34xRCE漏洞链复现

文章推荐： Excel制作可视化看板的思路及操作

理论+实践，带你了解分布式训练
本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训
理论+实践，带你掌握动态规划法
本文分享自华为云社区《五大基础算法--动态规划法》，作者：大金（内蒙的）。一、基本概念动态规划法，和分治法极其相似。区别就是，在求解子问题时，会保存该子问题的解，后面的子问题求解时，可以直接拿来
python 调用scp命令实践
pip install scp pip install pexpect 测试代码： import os import stat import paramiko # 用于调用scp命令 def s
用于验证资源的 REST 实践
我目前正在实现“ token ”REST 服务。 token 只是一个字符串，由一些参数构建而成，然后经过哈希处理并在一定时间后过期。我想在我的 REST 服务中有一个可以验证 token 的端点，
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Java XML 实践
我有一个应用程序，每 x 秒接收一次天气信息。我想将此数据保存到 XML 文件中。我应该为每个天气通知创建一个新的 XML 文件，还是将每个通知附加到同一个 XML 文件中？我不确定 XML 标准的
c# - 封装谓词的模式/实践
我猜我们大多数人都必须在某个时候处理这个问题，所以我想我会问这个问题。当您的 BLL 中有很多集合并且您发现自己一遍又一遍地编写相同的旧内联(匿名)谓词时，显然有必要进行封装，但实现封装的最佳方
正确的面向对象技术的 c# 实践
我有一些 c# 代码已经运行了一段时间了..我不得不说，虽然我了解 OO 原则的基础知识，但显然有不止一种方法可以给猫剥皮(尽管我讨厌那个短语!)。因此，我有一个基本抽象类作为基本数据服务类，如下所
持久化引用和删除引用对象的 SQL 实践
我设计了一个 SQL 数据库系统(使用 Postgre)，我有一个问题，即创建一个关系/引用的常见做法是什么，这种关系/引用即使在引用的对象被删除时也能持续存在。比如有一个UserORM，还有Act
Python Lambda 实践
我们的目标是搜索用户输入的字符串并计算在其中找到多少元音。不幸的是我被困在这里，有什么帮助吗？ def numVowels(s): vowels= "AEIOUaeiou" if s
c++ - 原地轮换C++实践
我有一个适用于我的“items”int 数组的旋转函数。下面的代码完成了它，除了我不必要地传输值。我正在努力实现“就地”轮换。我的意思是 ptrs 会递增或递减，而不是从数组中获取值。我需要通过这种方
ios - appDelegate 实践
我有一个 json 存储在我的应用程序文档文件夹中，我需要在我的所有 View 中使用它。我正在加载 json 并将其添加到每个 View 中的 NSMutableArray。但现在我了解到，我可以将
C++ 内存管理技术/实践
我用 C++ 开始了一个项目。这种语言的内存管理对我来说是新的。我过去常常使用 new () 创建对象，然后传递指针，虽然它可以工作，但调试起来很痛苦，人们看到代码时会用有趣的眼神看着我。我为它没有
c++ - 如何处理老年人糟糕的编码风格/实践？
已结束。这个问题是 off-topic .它目前不接受答案。想要改进这个问题？ Update the question所以它是on-topic堆栈溢出。关闭 10 年前。 Improve thi
oop - 初学者的松散耦合和 OO 实践
保持类松散耦合是编写易于理解、修改和调试的代码的一个重要方面——我明白这一点。然而，作为一个新手，几乎任何时候我都会超越我所苦苦挣扎的最简单的例子。我或多或少地了解如何将字符串、整数和简单数据类型封
php - Codeigniter MVC 实践
我发现我需要编写大量重复代码，因为我无法从其他 Controller 调用函数。例如，这里新闻提要内容在我的代码中重复，我对一个 Controller 做一些特定的事情，然后需要像这样加载我的新闻提要
f# - 在F#中实现约束数字类型的习语/实践？
假设需要一种数字数据类型，其允许值在指定范围内。更具体地说，假设要定义一个整数类型，其最小值为0，最大值为5000。这种情况在很多情况下都会出现，例如在对数据库数据类型，XSD数据类型进行建模时。在
javascript - 迭代整个数组的标准 JavaScript 实践？
假设我想循环整个数组来访问每个元素。使用 for 循环、for...in 循环或 for...of 循环是 JavaScript 开发人员的标准做法吗？例如: var myArray = ["app
Breeze 内存管理 - 模式/实践？
我有一个旧的 SL4/ria 应用程序，我希望用 Breeze 取代它。我有一个关于内存使用和缓存的问题。我的应用程序加载工作列表(一个典型的用户可以访问大约 1,000 个这些工作)。此外，还有很多

首页

博学

6Ren·AI

商城

数据测试实践：从一个bug开始的大数据引擎兼容性探索

作者：京东零售李晓洁

1、需求内容

2、缺陷描述

3、缺陷排查过程

1. 执行引擎兼容差异

2. 脚本梳理

3. 结论

4、大数据计算引擎兼容差异

1. collect_list()/collect_set() 在hive/spark和presto之间的区别

2. 行转列函数在hive和presto之间的区别

3. 隐式转换在引擎之间的区别

首页

博学

6Ren·AI

商城

数据测试实践：从一个bug开始的大数据引擎兼容性探索

作者：京东零售 李晓洁

﻿1、需求内容

2、 缺陷描述

3、 缺陷排查过程

1. 执行引擎兼容差异

2. 脚本梳理

3. 结论

4、大数据计算引擎兼容差异

1. collect_list()/collect_set() 在hive/spark和presto之间的区别

2. 行转列函数在hive和presto之间的区别

3. 隐式转换在引擎之间的区别

作者：京东零售李晓洁

1、需求内容

2、缺陷描述

3、缺陷排查过程