- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
大家好:) 我正在构建一个工具来对我们的 Oracle 10g 数据库进行一些体积采样。这是查询:
SELECT count(*)
FROM product
JOIN customer ON product.CUSTOMER_ID = customer.ID
WHERE
( product.CATEGORY = 'some first category criteria'
AND customer.REGION = 'some first region criteria'
AND ...)
OR
( product.CATEGORY = 'some second category criteria'
AND customer.REGION = 'some second region criteria'
AND ...)
OR ...
我从这个查询中所需要的只是进行计数。问题是数据量很大:每个表上大约有 3000 万行,我希望这个查询能够响应。
到目前为止,在 customer (<search criteria column>, CUSTOMER_ID)
上有复合索引有很大帮助。我觉得还是oracle的 helper 吧JOIN
在索引过滤操作之后。
每个(... AND ... AND ...)
block 预计包含大约 50 000 行。搜索条件中使用的列均具有大小约为 1000 个值的集合中的值。
我想知道我可以实现什么方法,因为我只会做 count(*)
s,特别是因为 Oracle 有一个内置的 OLAP 模块(以及 CUBE 操作?)。另外,我确信通过深思熟虑的索引和提示可以大大改进事情。
你会如何设计这个?
最佳答案
这看起来是 bitmap indexes 的一个不错的候选者。 :
Bitmap indexes are primarily designed for data warehousing or environments in which queries reference many columns in an ad hoc fashion. Situations that may call for a bitmap index include:
The indexed columns have low cardinality, that is, the number of distinct values is small compared to the number of table rows.
The indexed table is either read-only or not subject to significant modification by DML statements.
具体来说,位图连接索引在这里可能是理想的选择。手册中的示例甚至与您的数据模型相匹配。我尝试在下面重新创建您的模型和数据,并且位图连接索引的运行速度似乎比其他解决方案快几个数量级。
示例数据
--Create tables
create table customer
(
customer_id number,
region varchar2(100) not null
) nologging;
create table product
(
product_id number,
customer_id number not null,
category varchar2(100) not null
) nologging;
--Load 30M rows, 1M rows at a time. Takes about 6 minutes.
begin
for i in 1 .. 30 loop
insert /*+ append */ into customer
select (1000000*i)+level, 'Region '||trunc(dbms_random.value(1, 1000))
from dual connect by level <= 1000000;
commit;
insert /*+ append */ into product
select (1000000*i)+level, (1000000*i)+level
,'Category '||trunc(dbms_random.value(1, 1000))
from dual connect by level <= 1000000;
commit;
end loop;
end;
/
--Add primary keys and foreign key constraints.
alter table customer add constraint customer_pk primary key (customer_id);
alter table product add constraint product_pk primary key (product_id);
alter table product add constraint product_customer_fk
foreign key (customer_id) references customer(customer_id);
--Gather stats
begin
dbms_stats.gather_table_stats(user, 'CUSTOMER');
dbms_stats.gather_table_stats(user, 'PRODUCT');
end;
/
未索引 - 速度慢
正如预期的那样,性能很差。此示例查询在我的计算机上大约需要 75 秒。
SELECT count(*)
FROM product
JOIN customer ON product.CUSTOMER_ID = customer.customer_id
WHERE (product.CATEGORY = 'Category 1' AND customer.REGION = 'Region 1')
OR (product.CATEGORY = 'Category 2' AND customer.REGION = 'Region 2')
OR (product.CATEGORY = 'Category 888' AND customer.REGION = 'Region 888');
B 树索引 - 仍然很慢
计划发生变化,但性能保持不变。我认为这可能是因为我的示例是最坏情况的索引场景,其中数据确实是随机的。
create index customer_idx on customer(region);
create index product_idx on product(category);
begin
dbms_stats.gather_table_stats(user, 'CUSTOMER');
dbms_stats.gather_table_stats(user, 'PRODUCT');
end;
/
位图索引 - 好一点
这会稍微提高性能,达到大约 61 秒。
drop index customer_idx;
drop index product_idx;
create bitmap index customer_bidx on customer(region);
create bitmap index product_bidx on product(category);
begin
dbms_stats.gather_table_stats(user, 'CUSTOMER');
dbms_stats.gather_table_stats(user, 'PRODUCT');
end;
/
位图连接索引 - 速度快得令人难以置信
现在查询几乎立即返回结果,我的 IDE 将其计为 0 秒。
drop index customer_idx;
drop index product_idx;
create bitmap index customer_product_bjix
on product(product.category, customer.region)
FROM product, customer
where product.CUSTOMER_ID = customer.customer_id;
begin
dbms_stats.gather_table_stats(user, 'CUSTOMER');
dbms_stats.gather_table_stats(user, 'PRODUCT');
end;
/
指数成本
位图连接索引的创建时间比 B 树或位图索引稍长一些。与位图或位图连接索引相比,b 树索引非常大。
select segment_name, bytes/1024/1024 MB
from dba_segments
where segment_name in ('CUSTOMER_IDX', 'PRODUCT_IDX'
,'CUSTOMER_BIDX', 'PRODUCT_BIDX', 'CUSTOMER_PRODUCT_BJIX');
SEGMENT_NAME MB
------------ --
CUSTOMER_IDX 726
PRODUCT_IDX 792
CUSTOMER_BIDX 88
PRODUCT_BIDX 96
CUSTOMER_PRODUCT_BJIX 184
查询样式
这不会影响性能,但您可以像这样缩小查询:
SELECT count(*)
FROM product
JOIN customer ON product.CUSTOMER_ID = customer.customer_id
WHERE (product.category, customer.region)
in (('Category 1', 'Region 1'),
('Category 2', 'Region 2'),
('Category 888', 'Region 888'));
关于oracle - 设计sql、索引以提高count(*)查询性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16921897/
目录 count作用 测试 count(*) count(1) count(col) count(id):统计id count(inde
目录 1.初识COUNT 2.COUNT(字段)、COUNT(常量)和COUNT(*)之间的区别 3.COUNT(*)的优化 MyIS
以下 SQL Server 2008 语句之间有什么区别? SELECT COUNT(*) FROM dbo.Regular_Report SELECT COUNT(0) FROM dbo.Regul
如果字符串(短语)中只有元音,它(对我而言)说True;否则说 False。我不明白为什么它总是返回 False,因为 (x >= x) 总是返回 True。我感谢任何人检查此查询的解决方案。 (st
1.概述 在这个文章之前,我一直用count(1) 查询所有数据,以前我们都是说 count(*) 是最慢的。但是这个博客恰恰相反。 对于 count(主键 id) 来说,InnoDB 引擎会遍历整张
这个问题已经有答案了: Count(*) vs Count(1) - SQL Server (13 个回答) 已关闭 8 年前。 我经常发现这三种变体: SELECT COUNT(*) FROM Fo
为什么三个查询的成本相同?我想至少应该有一个更快。否则,只使用关键字 COUNT() 而不是 COUNT(parameter) 就可以了。 例如,以下是不依赖于参数的 COUNT() 示例实现: wh
我有一个“产品”表和一个“评论”表。 我想编写一个查询来返回每个产品的评论的 COUNT 和 AVG。 并且如果没有评论,我希望它为 COUNT 和 AVG 返回 0/null。 产品表 +-----
我会保持简短和亲切,因为我确信我缺少的是一些简单的东西。我正在尝试获取一个 NSMutableArray 的计数,它可以包含可变数量的对象(id 号)。数组是从 JSon 数据创建的,数组本身是完美创
我想知道查询计数的计数。 查询是 sourcetype="cargo_dc_shipping_log" OR sourcetype="cargo_dc_deliver_log" | stats cou
任何人都知道我如何在 SQL 炼金术中进行计数 COUN(IF(table_row = 1 AND table_row2 =2),1,0) 我做了这样的东西, func.COUNT(func.IF((
我有一个有四列的表(销售); id, user_id, product_id, and date_added. 我需要统计某个用户已售出的具有特定 id 的产品数量,并获取该用户当月售出的产品总数。
我是来问这个问题的实现的 MYSQL count of count? 我的问题是将我从一个表中提取结果的结果联系起来,使用它们来查询同一数据库的另一个表 (抱歉,我不是强大的 xySQL)。 我有一个
这是我的查询 SELECT COUNT(*) as total, toys, date FROM T1 WHERE (date >= '2012-06-26'AND date '0') UNION
我有 2 个表:成员,订单。 Members: MemberID, DateCreated Orders: OrderID, DateCreated, MemberID 我想找出给定月份中新成员的数
我最近在一次采访中被问到这个问题。我在 mySQL 中尝试了这个,并得到了相同的结果(最终结果)。All 给出了该特定表中的行数。谁能解释它们之间的主要区别。 最佳答案 没什么,除非您在表格中指定字段
我有一个包含 2157 条记录的表,假设有 3 列(A、B、C),我知道在 A 列中有 2154 个不同的值。 使用连接到 BigQuery 的 Tableau Desktop(及其自身的功能),我得
我试图查看当天的车辆销量,并创建另外两个列来告诉我过去 10 天的销量和过去 20 天的销量。同一天和同一辆车可能有多个销售。我的目标是获取不同的车辆和日期并查看他们的销售数量。 N 天计数应与该行中
我有一个非常简单的问题。我想知道某个数据库行是否存在。 我通常使用: SELECT 1 FROM `my_table` WHERE `field_x` = 'something' 然后我获取结果: $
我想要的输出的描述:我想要两个线程 Gaurav 和 john 完成一个 while 循环(从 1 到 8),这样无论哪个线程启动 ist,都会运行 5 次迭代(即直到 count=5 ) ,然后进入
我是一名优秀的程序员,十分优秀!