带你认识图数据库性能和场景测试利器LDBC SNB-6ren

带你认识图数据库性能和场景测试利器LDBC SNB

转载作者：知者更新时间：2024-03-12 23:16:03

26

4

**摘要：**本文主要介绍基于交互式查询所用的数据生成器（下文简称Datagen），及LDBC SNB数据如何在华为图引擎服务GES中应用。

本文分享自华为云社区《【图数据库性能和场景测试利器LDBC SNB】系列一：数据生成器简介 & 应用于GES服务》，作者：闹闹与球球

本文的主要内容包括：基于交互式查询所用的数据生成器（下文简称Datagen）介绍，及LDBC SNB数据如何在华为图引擎服务GES中应用。LDBC SNB所预设的节点和关系、数据生成器和系统的测试用例，形成了一个逻辑自恰的数据“武林”，以ldbc snb为测试标准的图数据库产品，就像是行走于其中的侠客们，都得遵循同一套“武林规矩”（测试用例），究竟谁能击败各方高手，问鼎盟主呢？

LDBC SNB概述

LDBC SNB，全称The Linked Data Benchmark Council’s Social Network Benchmark，官网地址：http://ldbcouncil.org。LDBC是一个致力于发展图数据管理的产业联盟组织，它开发了一套标准的benchmarks，用于系统地衡量不同图数据库产品的功能和性能。SNB是基于社交网络场景开发的一组benchmarks，由交互式场景(Interactive workload)和商业智能场景(Business Intelligence workload)组成。

LDBC SNB 项目包括3个组件：数据生成器（Datagen）、测试驱动程序（Test Driver，用于执行Benchmark的测试）和测试用例实现（Reference Implementation，目前提供了基于Cypher(Neo4j)和SQL(PostgreSQL)两种查询语言的测试用例实现）

LDBC SNB有两种工作模式：

1、交互式查询(Interactive workload)，适用于事务性的在线查询场景，比如基础的增删改查、shortestpath、多跳等；

2、商业智能 (Business Intelligence workload)，适用于根据企业业务场景制定的复杂查询和大规模离线图分析等场景。

在不同的工作模式下，【Datagen】、【Test Driver】和【测试用例实现】都是不同的。

章节概览

一、Datagen介绍

数据模型
Data Types
Data Schema
Datagen的安装和运行流程
Datagen的参数设置
常规参数设置
规模因子
序列化模式

二、LDBC SNB在GES中的应用

一、Datagen介绍

数据模型

Data Types

Datagen支持的属性datatype如下, 每种属性都支持单值和列表两种模式。

(截图来源于官方文档http://ldbcouncil.org/ldbc_snb_docs/ldbc-snb-specification.pdf)

Data Schema

(截图来源于官方文档http://ldbcouncil.org/ldbc_snb_docs/ldbc-snb-specification.pdf)

如图所示，Datagen生成的数据有预设的一套图模型，包括：

8种节点：organization & place & tag & tagClass & person & forum & post & comment

15种关系，如下表：

这些预设的节点和关系，形成了一个逻辑自恰的数据“武林”，以ldbc snb为测试标准的图数据库产品，就像是行走于其中的侠客们，都得遵循同一套“武林规矩”（测试用例），究竟谁能击败各方高手，问鼎盟主呢？且拭目以待吧。

安装和运行流程

在Interactive Workload模式下，Datagen的底座为hadoop；在BI Workload模式下，底座为Spark。

本次调研主要使用基于伪分布式hadoop的Datagen。

1）下载基于hadoop的ldbc datagen

GitHub - ldbc/ldbc_snb_datagen_hadoop: The Hadoop-based variant of the SNB Datagen

2）使用伪分布式的hadoop

cd ldbc_snb_datagen_hadoop/
cp params-csv-composite.ini params.ini
wget http://archive.apache.org/dist/hadoop/core/hadoop-3.2.1/hadoop-3.2.1.tar.gz
tar xf hadoop-3.2.1.tar.gz
export HADOOP_CLIENT_OPTS="-Xmx2G"
# set this to the Hadoop 3.2.1 directory
export HADOOP_HOME=`pwd`/hadoop-3.2.1
./run.sh

3）编译时出现缺失的jar包问题解决（报错如下）

解决方案：

从windows环境下载https://simulation.tudelft.nl/maven/dsol/dsol-xml/1.6.9/

手动安装缺失的jar包到本地的maven仓库

mvn install:install-file -Dfile=dsol-xml-1.6.9.jar -DgroupId=dsol -DartifactId=dsol-xml -Dversion=1.6.9 -Dpackaging=jar

4）再次运行，完成生成

sh run.sh

生成的数据文件存储在${outputDir}/social_network。

参数设置

（以下参数介绍均省略了前缀“ldbc.snb.datagen.”，即参数的完整格式为“ldbc.snb.datagen.xxx”）

1）常规参数

2）规模因子

LDBC SNB支持生成不同规模的图数据集，generator.scaleFactor参数各取值对应的点边数目如下表：

(截图来源于官方文档http://ldbcouncil.org/ldbc_snb_docs/ldbc-snb-specification.pdf)

3）序列化模式

Datagen主要有4种Csv文件的序列化模式，所生成的数据格式各有不同。

CsvBasic

基础序列化模式，每种节点、节点和节点之间的关系都有独立的csv文件，如图一所示：

图一每种节点、节点和节点之间的关系都有独立的csv文件，其中person_xx.csv均为person节点的属性数据。

若某个属性有多个取值，例如person的email属性有多个值，则将person的email记录单独生成一个csv文件，并将多个email分成多行记录展示，如图二所示：

图二 person的email属性单独存储，并在多个email分成多条记录展示

CsvComposite（此模式生成的数据，与GES支持的Csv格式相似度最高）

在CsvBasic的基础上，将有多个值的属性和其他属性合并为一个记录，如图三；并将多个值进行合并(以list的格式，分号分隔)，如图四；

图三 person节点的属性记录合并为person_0_0.csv

图四 language和email两个list属性合并在一行

CsvMergeForeign

在CsvBasic基础上，如果节点间关系是1对多的，则将关系作为外键合并入节点的属性文件中展示，如图五

图五将comment-hasCreator->person、comment-isLocatedIn->place、comment-replyOf->post、comment-replyOf->comment关系与comment属性文件合并

CsvCompositeMergeForeign

是CsvComposite和 CsvMergeForeign的结合，既合并了list属性，又将一对多关系进行了压缩表示，如图六

图六 place列表示person-isLocatedIn->place关系的外键表示，同时language和email以list形式展示

各序列化模式对应的参数值如下

CsvBasic

ldbc.snb.datagen.serializer.dynamicActivitySerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.activity.CsvBasicDynamicActivitySerializer
ldbc.snb.datagen.serializer.dynamicPersonSerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.person.CsvBasicDynamicPersonSerializer
#ldbc.snb.datagen.serializer.staticSerializer:ldbc.snb.datagen.serializer.snb.csv.staticserializer.CsvBasicStaticSerializer

CsvComposite

ldbc.snb.datagen.serializer.dynamicActivitySerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.activity.CsvCompositeDynamicActivitySerializer
ldbc.snb.datagen.serializer.dynamicPersonSerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.person.CsvCompositeDynamicPersonSerializer
ldbc.snb.datagen.serializer.staticSerializer:ldbc.snb.datagen.serializer.snb.csv.staticserializer.CsvCompositeStaticSerializer

CsvMergeForeign

ldbc.snb.datagen.serializer.dynamicActivitySerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.activity.CsvMergeForeignDynamicActivitySerializer
ldbc.snb.datagen.serializer.dynamicPersonSerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.person.CsvMergeForeignDynamicPersonSerializer
ldbc.snb.datagen.serializer.staticSerializer:ldbc.snb.datagen.serializer.snb.csv.staticserializer.CsvMergeForeignStaticSerializer

CsvCompositeMergeForeign

ldbc.snb.datagen.serializer.dynamicActivitySerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.activity.CsvCompositeMergeForeignDynamicActivitySerializer
ldbc.snb.datagen.serializer.dynamicPersonSerializer:ldbc.snb.datagen.serializer.snb.csv.dynamicserializer.person.CsvCompositeMergeForeignDynamicPersonSerializer
ldbc.snb.datagen.serializer.staticSerializer:ldbc.snb.datagen.serializer.snb.csv.staticserializer.CsvCompositeMergeForeignStaticSerializer

二、LDBC SNB在GES中的应用

Datagen生成的数据集与GES格式有以下3点区别

不同label的点id之间可能存在id重复的现象；
knows关系是双向的；
没有label列。

使用DatagenToGES数据转换脚本(基于CsvComposite序列化模式)可以将LDBC数，需在python3.6环境下运行。

DatagenTOGES脚本有如下功能：

将8种节点类型映射为1-8个数字前缀，将原id转换为以数字前缀为开头、长度为20bytes的新id，解决不同label的点之间id重复的问题；
增加knows边文件的反向边数据；
增加label列。

转换前文件格式(CsvComposite序列化模式)：

转换后文件格式：

DatagenToGES转换规模因子为100的大规模数据集用时约半个小时。

数据转换脚本核心代码片段：

在GES中导入转换后的LDBC SNB(示例数据为SF0.1)，并执行PageRank算法，效果如下图：

点击关注，第一时间了解华为云新鲜技术~

26

4

0

文章推荐：分析框架——用户体验度量数据体系搭建

文章推荐： 21. 合并两个有序链表 (Python 实现)

文章推荐： HJ删除字符串中出现次数最少的字符

websocket的用途/场景
websocket的用途/场景先总结：高即时性服务，比如聊天室的群聊，server顺序收到了张三，李四的消息，立即就推送给王五，不能让王五等半天。 Ajax也可以一秒一刷，让王五去问张三说话没，如果
前端开发用得着的nginx配置(场景)
前端的工作过程里，本地开发、提供测试环境，总得有个用着顺手的服务器软件，这个场景里nginx很流行。介绍两个好用的配置项：rewrite try_files @xxxx rewrite 比较
来自两个不同角度的两个视频文件的 3D 场景
我有一个场景的两个不同角度的 2 个视频文件，我想重建场景的 3D 估计。它类似于 3D 传感器的作用(例如 Kinect、PrimeSense)。我正在寻找一个库，甚至是一个完善的机器视觉算法，以便
Mercurial rebase 场景
我已阅读RebaseProject页面并尝试了一个不平凡的例子(不是对一个完整的分支进行 rebase )。这与 rebase D 的情况类似我场景B。这是rebase之前的情况: default
单独类中的 JavaFX2 场景
有没有办法将我的场景保存在 JavaFx 应用程序中单独的 Java 文件中？我尝试过这样的事情: public class MyApp extends Application { pri
java - SQL逻辑上下文/场景
我有这样的场景:用户想要查看大量有关自己的信息。例如:年龄、姓名、地位、收入、工作、爱好、 child 的名字、妻子的名字、酋长的名字、祖父/祖母的名字。大约 50 个变量。他可以选择任何变量来显示信
MySQL MATCH-AGAINST 场景
我希望有人能帮助我解决这个问题:我有一个包含条目的表。我想执行查询并根据模式获取得分最高的记录。模式将是:如果我的话按原样出现，那么该条目的分数将是最高的。如果该单词出现在句子中，则该条目的分数将低于
iphone - 如何判断正在运行的场景是什么样的类/场景？
我正在尝试在我的应用程序委托(delegate)方法中实现一些逻辑。了解当前正在运行哪种场景将非常有帮助。 [[CCDirector sharedDirector] runningScene] 返回当
mysql if/else 场景
好的，这是一个有趣的。我有 2 个表:tbl_notes、tbl_notes_categories 简单地说，tbl_notes 有一个 categoryid，我将 2 个表与该 ID 相关联。所以，
c# - 如何从并行运行中排除某些功能/场景？
我有一个使用并行运行的 Specflow、selenium、NUnit 的测试解决方案在 AssemblyInfo 中添加了这个:[程序集:Parallelizable(ParallelScope.F
ios - SpriteKit 场景
我正在尝试弄清楚如何在 SpriteKit 中添加更多场景。如果我在 GameViewController 中使用 SpriteKit 生成的行 if let scene = GameScene.un
复杂「场景」数据导入导出
目录 1、业务背景 2、场景分析 3、流程设计 1、业务流程 2、导入流程
unity3d - 为什么我不能播放预览我的简单 Unity 场景？
我是 Unity 的新手，所以修复起来可能非常简单。我使用了一个 3D Google SketchUp 模型，我想让玩家环顾模型。 super 简单。我添加了 3D 平面，添加了相机并更新了设置以支
pytest - 如何有条件地跳过参数化的 pytest 场景？
我需要标记要跳过的某些测试。但是，有些测试是参数化的，我只需要能够跳过某些场景。我使用 py.test -m "hermes_only" 调用测试或 py.test -m "not hermes_o
.net - 重用 SpecFlow 场景
我已经开始使用 SpecFlow 并想知道是否可以在规范之间重用场景基本上我的想法是这样的(我可能从根本上是错误的:)) 我编写了一项功能来验证导航。功能:导航 I should be able
bdd - 用于用户输入验证的 Gherkin 场景
在编写验证输入表单上的信息的 BDD 场景时，您将如何列出规则。选项是: 1) 每个规则一个场景 2)场景大纲，每个领域和规则的例子我们如何说某些不在特定字符集中的无效内容，例如: 鉴于我输入了一
bdd - 预期异常的 StoryQ 场景
我们如何使用 StoryQ 来测试预期出现异常的场景？最佳答案就实际代码而言，在测试代码的 .Then 部分，您需要创建一个 Action 或 Func 来确定正在测试的内容，然后在代码的 .Th
swift - 如何根据按钮按下时设备中心的位置将节点添加到 ARKit 场景？
完成快速初学者努力通过点击按钮向场景添加节点。我知道我可以使用点击手势来获取点击坐标并执行点击测试，然后在点击的 3D 空间中放置一个对象。但是，我想在设备屏幕的中央显示一个球体或十字准线，当点击屏
specflow - 如何在表格中传递空格(specflow 场景)？
如何在表格中传递空格？ Background: Given the following books |Author |(here several spaces)
graphics - 为什么我的光线追踪器不会重新创建 "mount"场景？
我正在尝试从 Eric Haines' Standard Procedural Database (SPD) 渲染“mount”场景，但折射部分就是不想配合。我已经尝试了所有我能想到的方法来修复它。

首页

博学

6Ren·AI

商城