- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
有一个产品特征矩阵。它有数千行(产品)和数百个功能。它具有二进制值,显示产品是否具有此功能。所以它可能是一个包含 40 000 行和 900 列的表。
<strong>Product-feature matrix</strong><br/>
pr f1 f2 f3 fn ...<br/>
01 0 1 1 1<br/>
02 0 0 0 0<br/>
03 1 0 1 0<br/>
04 1 0 1 0<br/>
.....
首先,我必须找到具有一组给定功能 Q 的产品。 Q=(f1=1, f5=1, f27=1)。简单地说,找到蓝色汽车、两厢车、三门车。
<strong>Result 1</strong><br/>
Given Q=(f1=1, f5=1, f27=1)<br/>
Relevant products: 03, 04, 08...
其次,也是最重要的,我必须找出有多少产品具有一组特征 Q,同时具有特征 f_i(其中 i - 1..n)。换句话说,我们正在选择满足 Q 的行,并计算每列中有多少个 1(进行 SUM 聚合)。例如。多少蓝车,两厢,三门还有:柴油机,汽油机,氙气灯。
<strong>Result 2</strong><br/>
Given Q=(f1=1, f5=1, f27=1)<br/>
sum f2 = 943<br/>
sum f3 = 543<br/>
sum f4 = 7<br/>
sum f6 = 432<br/>
....
当然可以使用 RDBMS 来解决此任务,但它不是那么有效 - 在一般情况下,它需要全扫描来查找每个列中的产品和聚合。至少我不知道如何为这个任务建立有效的 b 树索引。 Oracle 位图索引可以提供帮助,但我不能使用 Oracle。
目前,我们正在使用 MySQL 来完成这项任务,但结果并不理想。实际上我们正在使用整数表示(我们将特征分组并将整数存储在列中,而不是 boolean 值)来减少列的数量。
可以将此矩阵视为稀疏二进制矩阵。而且完全存储在内存中问题不大。我想知道是否可以应用一些算法来处理稀疏矩阵、 vector 空间(SVD、矩阵 vector 乘法等)。但它可能有助于找到满足 vector Q 的产品,而不是聚合。问题更多在于聚集的时间,而不是空间。
也许可以将矩阵存储为多链表,这将有助于查找产品并为每一列进行聚合。
最后,问题是如何对待这个任务。查找具有给定特征的产品然后计算具有附加特征的产品(按每列汇总)的最有效算法是什么。
最佳答案
您可以按列排列数据。即有一个 BitSet 用于列出具有该特征的汽车/行的列。
这使您可以利用 BitSet 提供的快速和/或操作。
使用这些功能,您应该能够将每个功能的搜索和计数时间缩短到 2 微秒以内。
对于 40,000 * 900 的数据集,打印以下内容
average search time 1396 ns.
average count time 1234 ns.
这应该比使用 RDBMS 数据库快几个数量级。即使是一百万行,每行也只需要不到 50 微秒。
public static void main(String... args) throws IOException {
final int rows = 40 * 1000;
final int cols = 900;
List<BitSet> features = new ArrayList<BitSet>();
features.add(new BitSet(rows));
features.add(new BitSet(rows));
for (int i = 2; i < cols; i++) {
final BitSet bs = new BitSet(rows);
for (int j = 0; j < rows; j++)
bs.set(j, j % i == 0);
features.add(bs);
}
// perform the search
int[] factors = new int[]{2, 5, 7};
BitSet matches = new BitSet();
long runs = 1000*1000;
{
long start = System.nanoTime();
for (int i = 0; i < runs; i++) {
// perform lookup.
lookup(matches, features, factors);
}
long avgTime = (System.nanoTime() - start) / runs;
System.out.println("average search time " + avgTime + " ns.");
}
{
long start = System.nanoTime();
int count9 = 0;
BitSet col9matched = new BitSet(cols);
for (int i = 0; i < runs; i++) {
final int index = 9;
final BitSet feature = features.get(index);
count9 = countMatches(col9matched, matches, feature);
}
long avgTime = (System.nanoTime() - start) / runs;
System.out.println("average count time " + avgTime + " ns.");
}
}
private static int countMatches(BitSet scratch, BitSet matches, BitSet feature) {
// recycle.
scratch.clear();
scratch.or(matches);
scratch.and(feature);
return scratch.cardinality();
}
private static void lookup(BitSet matches, List<BitSet> data, int[] factors) {
matches.clear();
matches.or(data.get(factors[0]));
for (int i = 1, factorsLength = factors.length; i < factorsLength; i++) {
matches.and(data.get(factors[i]));
}
}
关于java - 提高矩阵/表聚合和搜索的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4068273/
我正在比较工作簿中的工作表。该工作簿有两张名为 PRE 和 POST 的工作表,每张工作表都有相同的 19 列。行数每天都不同,但特定一天的两张表的行数相同。该宏将 PRE 工作表中的每一行与 POS
我有一个对象数组,我一次循环遍历该数组一个对象,然后进行几次检查以查看该数组中的每个对象是否满足特定条件,如果该对象满足此条件,则复制一个属性将此对象放入数组中(该属性还包含另一个对象)。 for(v
我正在编写一个必须非常快的应用程序。我使用 Qt 5.5 和 Qt Creator,Qt 的 64 位 MSVC2013 编译版本。 我使用非常困倦的 CS 来分析我的应用程序,我看到占用最多独占时间
我有以下 CountDownTimer 在我的 Android 应用程序中不断运行。 CountDownTimer timer_status; timer_status = new CountDown
有一个优化问题,我必须调用随机森林回归器的预测函数数千次。 from sklearn.ensemble import RandomForestRegressor rfr = RandomForestR
我正在努力提高现有 Asp.Net Web 应用程序的数据访问层的性能。场景是。 它是一个基于 Web 的 Asp.Net 应用程序。 数据访问层使用 NHibernate 1.2 构建并作为 WCF
我在我的 Intel Edison 上运行 Debian,并尝试使用 ffmpeg 通过 USB 网络摄像头捕获视频。我正在使用的命令是: ffmpeg -f video4linux2 -i /dev
我有一个 For循环遍历整数 1 到 9 并简单地找到与该整数对应的最底部的条目(即 1,1,1,2,3,4,5 将找到第三个“1”条目)并插入一个空白行。我将数字与仅对应于此代码的应用程序的字符串“
我有一个带有非规范化架构(1 个表)的 postgresql 数据库,其中包含大约 400 万个条目。现在我有这个查询: SELECT count(*) AS Total, (SELECT c
在 Ltac 中实现复杂的策略时,有一些 Ltac 命令或策略调用我预计会失败以及预期失败(例如终止 repeat 或导致回溯)。这些故障通常在故障级别 0 时引发。 更高级别引发的故障“逃避”周
我正在尝试提高 ansible playbook 的性能。我有一个测试剧本如下: --- - name: Test hosts: localhost connection: local g
我正在使用 axios从 Azure 存储 Blob 下载文件 (~100MB)。 axios({ method: 'get', url: uri, onDownloadProgress:
我有一个 ClojureScript 程序,主要对集合执行数学计算。它是在惯用的、独立于主机的 Clojure 中开发的,因此很容易对其进行基准测试。令我惊讶的是(与答案对 Which is fast
我有一个程序必须在硬件允许的情况下尽快发出数千个 http 请求。在现实世界中,这些连接中的每一个都将连接到一个离散的服务器,但我已经编写了一个测试程序来帮助我模拟负载(希望如此)。 我的程序使用 A
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在计算 Clojure 中 3d 点云的边界框。点云表示为 Java 原始浮点数组,点云中的每个点都使用 4 个浮点存储,其中最后一个浮点未使用。像这样: [x0 y0 z0 u0 x1 y1
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我正在尝试使用rayshader 包制作图像。我很高兴能够使用如下代码创建一个 png 文件: library(ggplot2) library(rayshader) example_plot <-
更新 显然,jQuery 模板可以被编译,并且它有助于显示带有 if 语句 的模板的性能 here . 但是如图here ,预编译的 jQuery 模板对我的情况没有多大作用,因为我的模板不包含逻辑
我是编程新手。我有一个启用分页的 ScrollView ,其中包含许多页面(最多十个),并且在每个页面上都有一个自定义按钮。每个自定义按钮都有一个自定义图像。我在 Interface Builder
我是一名优秀的程序员,十分优秀!