- 使用 Spring Initializr 创建 Spring Boot 应用程序
- 在Spring Boot中配置Cassandra
- 在 Spring Boot 上配置 Tomcat 连接池
- 将Camel消息路由到嵌入WildFly的Artemis上
本文分享自华为云社区《互联网用户画像,精准营销,GaussDB(DWS)来支招》,作者: fudgefactor。
目前在互联网、教育、游戏等行业都有实时精准营销的需求。通过系统生成用户画像,在营销时通过条件组合筛选用户,快速提取目标群体。例如:
这些业务场景都有一些共同的特点:
针对上述业务场景特点,GaussDB(DWS)的roaringbitmap可以高效生成、压缩、解析位图数据,支持最常见的位图聚合操作(与、或、非、异或),满足用户在亿级以上用户、千万级标签的大数据量下实时精准营销、快速圈选用户的需求。
下面先通过两个示例来理解Roaringbitmap在用户画像场景中的使用方法。
假设有一张用户浏览网页的流水信息表userinfo,表中的字段如下:
CREATE TABLE userinfo
(userid int,
age int,
gender text,
salary int,
hobby text
)with (orientation=column);
userinfo表中的数据会随着用户信息的变化不断增长,同时,如果用户有多个"爱好"(hobby),那么就有多条记录对应同一个userid。
假设要筛选出所有“收入大于10000元的男性,年龄大于30岁,爱好钓鱼”的群体,向这些目标群体推送特定的消息。
传统的方法是直接在原表上执行查询,语句如下:
select distinct userid from userinfo where salary > 10000 and age > 30 and gender ='m' and hobby ='fishing';
当userinfo表的数据量不大的时候,可以通过在salary, age, gender,hobby列上建立索引来满足需求。但是如果userinfo表的数据量非常大,同时一张表的标签数非常多(比如有100个属性,需要对应有100个列)的时候,上述语句就不能满足诉求,因为如下原因:
这种场景下使用roaringbitmap就会有比较好的效果。
CREATE TABLE userinfoset
( age int,
gender text,
salary int,
hobby text,
userset roaringbitmap,
PRIMARY KEY(age,gender,salary,hobby)
)with (orientation=column);
insert into userinfoset us
select age, gender, salary, hobby, rb_build_agg(userid)
from
userinfo
group by age, gender, salary, hobby;
select rb_iterate(rb_or_agg(userset)) from userinfoset where salary > 10000 and age > 30 and gender ='m' and hobby ='fishing';
数据进行聚合后的userinfoset的数据量相比源表小了很多,基表scan的性能会快很多,同时基于Roaringbitmap的优势,计算rb_or_agg和rb_iterate的性能也很好,相比传统的方法,性能明显提升。
由于DWS规格的限制,每张表最大可以有1600列,如果描述用户的属性有10000个,我们无法通过创建一个有10000列的表来实现这个方案,那么示例一中的方案就不再有效了。
为此,我们可以这样设计我们的表结构:
create table userinfoset
(
tag_value_id int,
userset roaringbitmap
)with(orientation=column);
其中tag_value_id表示属性值对应的id,比如,性别这一属性,有”男“,”女“两个值,我们可以把它编码为1,2;学历这个属性的取值是”专科“,”本科“,”硕士“,“博士”,那么分别编码为3,4,5,6,等等。将不同的属性值编码为不同的id值。
userset列表示的是满足tag_value_id所对应属性值的用户id的集合。比如tag_value_id=1这条记录对应的userset就是所有性别为男的用户的集合。
数据加工:
这个表的数据一般是需要通过加工得到的,假设原始数据的表结构如下(一共有10张表):
create table origin_1
(
userid int,
tag_value_id1 int,
tag_value_id2 int,
tag_value_id3 int,
...
tag_value_id998 int,
tag_value_id999 int,
tag_value_id1000 int
)with(orientation=column);
...
create table origin_10
(
userid int,
tag_value_id9001 int,
tag_value_id9002 int,
tag_value_id9003 int,
...
tag_value_id9998 int,
tag_value_id9999 int,
tag_value_id10000 int
)with(orientation=column);
我们可以通过类似以下的语句将数据加工到目标表中:
insert into userinfoset select
tag_value_id1,
rb_build_agg(userid) origin_1 from origin
group by tag_value_id1;
...
insert into userinfoset select
tag_value_id10000,
rb_build_agg(userid) origin_10 from origin
group by tag_value_id10000;
查询:
假设需要圈选性别为男,学历为本科的用户的的个数有哪些,可以用以下语句实现:
select rb_or_cardinality_agg(userset) from userinfoset where tag_value_id in (1,4);
如果用户要圈选的人群有更多的特征,将对应的tag_value_id加入到in子句中即可。
如果想要知道这些用户的具体的userid,可以通过如下函数实现:
select rb_iterate(rb_or_cardinality_agg(userset)) from userinfoset where tag_value_id in (1,4);
可以通过查询产品手册实现更加多样化的人群圈选策略。
最近两年,互联网+的概念可谓十分火爆。所谓“互联网+”,其实质就是把互联网大平台和各行各业进行有机结合,建立一个新的商业生态,对于传统企业来说,互联网+的第一步就是有一个企业网站,将自己推广出去
我的大学分两步运行他们的 wifi 身份验证。首先您连接到 wifi 网络,然后当您打开网络浏览器时,您必须输入一些关于您自己的附加信息才能访问互联网。 1)大学系统有一些方法可以检测设备之前是否已经
有没有办法监控每个应用程序使用了多少数据(互联网)? 如果我无法监控应用程序,是否有办法获取所有互联网请求信息?(获取传递的数据、url 等) (我想在为 iPhone 开发的应用程序中使用此信息)
我想从我的 MTI RFID ME Gen2 Internet 中读出一些标签: http://www.mti.com.tw/rfidme/ 这是一个 USB Dongle,现在我想用 c# 在 VS
我正在开发一个应用程序。其中,我想在一段时间内禁止使用互联网,尤其是在他有作业的情况下。如何禁用互联网? 最佳答案 要以编程方式启用/禁用数据连接,请检查此 post 要禁用/启用 wi-fi,请参阅
在我的应用程序中,我只需要知道设备是否连接到 wifi 网络。我认为此功能适用于模拟器但不适用于真实设备。 public static boolean wifiInternet(Context c)
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 12 年前。 Improve th
设想一种情况,我的 PC 有两个网卡,一个连接到互联网,另一个连接到本地网络,我如何用 C# 检测连接到互联网的 IP? 最佳答案 试试这个: static IPAddress getInternet
我的 firebase 应用程序在我的 android 设备上运行完美,无需添加 permission.INTERNET 标志。我直接从 gradle 安装了 Firebase。我知道通过 andro
最近我开始考虑一种解决方案,通过 Internet 向我的订阅客户发布消息。我们的系统是用 C# 开发的。 我们尝试使用 Redis,它在速度和准确性方面非常好,但在安全性方面非常糟糕,每个人都可以订
国内公司普遍不注重基础设施建设,这也是可以理解的。吃饭都吃不饱,就别提什么荤素搭配,两菜一汤了。但也不能全说是这样,还是有很多公司投入大量的人力物力去做好公司的基建,比如很多阿里和美团的小伙伴对公司
我有几个 Azure Functions(高级计划),它们可以执行一些操作并将结果加载到存储 blob。与存储帐户的连接受到 v-net 的限制,因此无法公开访问存储帐户,但是,我检查并发现我的 (H
我正在我的家庭有线网络上解析 ICMPv6 数据报,但在特定的 RFC 中找不到对位排序约定的明确提及。 多字节字段是网络顺序,但是一个字节内的位呢? 机器是字节可寻址的,但网络硬件将位序列化。在图表
我如何在笔记本电脑上配置以太网或 wifi,我遵循了这个 tutorial我的以太网正常启动,但我仍然无法从 ping 8.8.8.8 dns 收到任何数据包,我的笔记本电脑上有以太网和 wifi .
我在 Genymotion 模拟器上运行的应用程序需要互联网。网上好像不能用Genymotion模拟器。我试图通过打开浏览器来确认这一点,这就是我得到的: 我在笔记本电脑上运行 Windows 7 并
我目前正在学习 docker 和 kubernetes。我遇到的问题之一是将我的 nginx pod 暴露在公共(public)互联网上。我想从我的网络浏览器访问我的 serverIP 并查看 ngi
是否可以为 ImageSpan 指定 Internet url 并使用 TextView 显示它?我已经尝试了很多版本 String mockContent = ""; myTextView.setT
例子。 我在 Google 主页上做了一些 CSS 更改。我想保存 CSS(某处)并在每次加载页面时都具有相同的外观。 欢迎使用任何浏览器插件或任何其他方法。 最佳答案 如果使用谷歌浏览器,有一个名为
我正在构建一个旨在加载到 Wii Internet Channel(本质上是 Opera 9.3)的 Web 应用程序。 它支持 SVG,但它们似乎无法缩放。无论宽度和高度设置为多少,图形始终以其“最
我安装了 python 2.7.5,它工作正常。 然后我安装scrapy(我认为,它在内部使用了twisted)。我的爬虫蜘蛛也工作正常。 我安装了扭曲: sudo apt-get install p
我是一名优秀的程序员,十分优秀!