- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我的问题是关于使用 AVX 指令与朴素方法的性能。
我从我的 AVX 方法中得到的答案与我从天真的方法中得到的答案相同且正确,但使用 AVX 指令得到答案所需的时间稍长,所以我想知道我做错了什么/向量化代码效率低下。
这个问题有点太复杂了,无法提供独立的可编译代码单元,对此我深表歉意。但是,我在下面有一些功能性代码片段,我希望它们相当简单明了且样式得体,希望它们足够容易理解以处理手头的问题。
一些环境细节:
-mavx
标志进行编译。 我有一个程序,用户提供一个多行文本文件,每行包含一个逗号分隔的数字字符串,即 n 维 vector 列表,其中 n 对于文件是任意的,但是(除非输入错误)对于每一行都是相同的值 n。
例如:
0,4,6,1,2,22,0,2,30,...,39,14,0,3,3,3,1,3,0,3,2,1
0,0,1,1,0,0,0,8,0,1,...,6,0,0,4,0,0,0,0,7,0,8,2,0
...
1,0,1,0,1,0,0,2,0,1,...,2,0,0,0,0,0,2,1,1,0,2,0,0
我通过比较这些 vector 生成一些统计分数,例如 Pearson 相关性,但分数函数可以是任何东西,比如简单的东西,例如算术平均值。
朴素的方法
这些 vector 中的每一个都被放入一个指向名为 signal_t
的结构的指针中:
typedef struct signal {
uint32_t n;
score_t* data;
score_t mean;
} signal_t;
score_t
类型只是 float
的类型定义:
typedef float score_t;
首先,我将字符串解析为 float
(score_t
) 值并计算算术平均值:
signal_t* s = NULL;
s = malloc(sizeof(signal_t));
if (!s) {
fprintf(stderr, "Error: Could not allocate space for signal pointer!\n");
exit(EXIT_FAILURE);
}
s->n = 1;
s->data = NULL;
s->mean = NAN;
for (uint32_t idx = 0; idx < strlen(vector_string); idx++) {
if (vector_string[idx] == ',') {
s->n++;
}
}
s->data = malloc(sizeof(*s->data) * s->n);
if (!s->data) {
fprintf(stderr, "Error: Could not allocate space for signal data pointer!\n");
exit(EXIT_FAILURE);
}
char* start = vector_string;
char* end = vector_string;
char entry_buf[ENTRY_MAX_LEN];
uint32_t entry_idx = 0;
bool finished_parsing = false;
bool data_contains_nan = false;
do {
end = strchr(start, ',');
if (!end) {
end = vector_string + strlen(vector_string);
finished_parsing = true;
}
memcpy(entry_buf, start, end - start);
entry_buf[end - start] = '\0';
sscanf(entry_buf, "%f", &s->data[entry_idx++]);
if (isnan(s->data[entry_idx - 1])) {
data_contains_nan = true;
}
start = end + 1;
} while (!finished_parsing);
if (!data_contains_nan) {
s->mean = pt_mean_signal(s->data, s->n);
}
算术平均值非常简单:
score_t pt_mean_signal(score_t* d, uint32_t len)
{
score_t s = 0.0f;
for (uint32_t idx = 0; idx < len; idx++) {
s += d[idx];
}
return s / len;
}
朴素的表现
在 10k vector 字符串的文件上运行这种方法,我得到了 6.58 秒的运行时间。
AVX 方法
我有一个名为 signal_avx_t
的修改过的 signal_t
结构:
typedef struct signal_avx {
uint32_t n_raw;
uint32_t n;
__m256* data;
score_t mean;
} signal_avx_t;
这存储指向 __m256
地址的指针。每个 __m256
存储八个单精度 float
值。为了方便起见,我定义了一个名为 AVX_FLOAT_N
的常量来存储这个倍数,例如:
#define AVX_FLOAT_N 8
下面是我如何解析 vector 字符串并将其存储在 __m256
中。这与原始方法非常相似,除了现在我一次将八个值读入缓冲区,将缓冲区写入 __m256
,然后重复,直到没有更多值可写。然后我计算平均值:
signal_avx_t* s = NULL;
s = malloc(sizeof(signal_avx_t));
if (!s) {
fprintf(stderr, "Error: Could not allocate space for signal_avx pointer!\n");
exit(EXIT_FAILURE);
}
s->n_raw = 1;
s->n = 0;
s->data = NULL;
s->mean = NAN;
for (uint32_t idx = 0; idx < strlen(vector_string); idx++) {
if (vector_string[idx] == ',') {
s->n_raw++;
}
}
score_t signal_buf[AVX_FLOAT_N];
s->n = (uint32_t) ceil((float)(s->n_raw) / AVX_FLOAT_N);
s->data = malloc(sizeof(*s->data) * s->n);
if (!s->data) {
fprintf(stderr, "Error: Could not allocate space for signal_avx data pointer!\n");
exit(EXIT_FAILURE);
}
char* start = id;
char* end = id;
char entry_buf[ENTRY_MAX_LEN];
uint32_t entry_idx = 0;
uint32_t data_idx = 0;
bool finished_parsing = false;
bool data_contains_nan = false;
do {
end = strchr(start, ',');
if (!end) {
end = vector_string + strlen(vector_string);
finished_parsing = true;
}
memcpy(entry_buf, start, end - start);
entry_buf[end - start] = '\0';
sscanf(entry_buf, "%f", &signal_buf[entry_idx++ % AVX_FLOAT_N]);
if (isnan(signal_buf[(entry_idx - 1) % AVX_FLOAT_N])) {
data_contains_nan = true;
}
start = end + 1;
/* I write every eight floats to an __m256 chunk of memory */
if (entry_idx % AVX_FLOAT_N == 0) {
s->data[data_idx++] = _mm256_setr_ps(signal_buf[0],
signal_buf[1],
signal_buf[2],
signal_buf[3],
signal_buf[4],
signal_buf[5],
signal_buf[6],
signal_buf[7]);
}
} while (!finished_parsing);
if (!data_contains_nan) {
/* write any leftover floats to the last `__m256` */
if (entry_idx % AVX_FLOAT_N != 0) {
for (uint32_t idx = entry_idx % AVX_FLOAT_N; idx < AVX_FLOAT_N; idx++) {
signal_buf[idx] = 0;
}
s->data[data_idx++] = _mm256_setr_ps(signal_buf[0],
signal_buf[1],
signal_buf[2],
signal_buf[3],
signal_buf[4],
signal_buf[5],
signal_buf[6],
signal_buf[7]);
}
s->mean = pt_mean_signal_avx(s->data, s->n, s->n_raw);
}
AVX 均值函数
这是我编写的用于生成算术平均值的函数:
score_t pt_mean_signal_avx(__m256* d, uint32_t len, uint32_t len_raw)
{
score_t s = 0.0f;
/* initialize a zero-value vector to collect summed value */
__m256 v_sum = _mm256_setzero_ps();
/* add data to collector */
for (uint32_t idx = 0; idx < len; idx++) {
v_sum = _mm256_add_ps(v_sum, d[idx]);
}
/* sum the collector values */
score_t* res = (score_t*)&v_sum;
for (uint32_t idx = 0; idx < AVX_FLOAT_N; idx++) {
s += res[idx];
}
return s / len_raw;
}
AVX 性能
在 10k vector 字符串文件上运行基于 AVX 的方法时,我得到了 6.86 秒的运行时间,大约慢了 5%。无论输入的大小如何,这种差异大致恒定。
总结
我的预期是,通过使用 AVX 指令和矢量化循环,我会得到一个减速带,而不是性能会略微变差。
代码片段中是否有任何暗示滥用 __m256
数据类型和相关内部函数以计算基本汇总统计信息的内容?
主要是,在处理较大数据集之间更复杂的评分函数之前,我想弄清楚我在这里做错了什么。感谢您提供任何建设性建议!
最佳答案
首先,我希望我们同意,将文本解析为 float 可能比算术平均更占用 CPU,更不用说从物理存储上的文件中读取数据了。如果你打算做一个基准测试,你绝对应该省略读取和解析。
这里的主要问题似乎是您试图在阅读时进行矢量化。实际上,您所做的是将数据从 signal_buf
复制到 s
。
您必须意识到 __mm256_* 并不是真正的内存数据类型。它只是一个宏,用于确保您使用的内存地址和寄存器具有 256 位值的能力。
所以,只需将您的 signal_buf
和 __mm256_load_ps
加载到 SIMD 寄存器中,然后在其上执行您的 AVX 魔法,或者依次填充 s
直接使用 sscanf
然后执行相同的 __mm256_load_ps
魔术。
我真的不明白你为什么要使用 setr
.为什么需要颠倒算术平均值的元素顺序?或者这是您的“穷人的负载指令”?
同样,您在 float 学方面的努力,尤其是如果您编写编译器甚至可能能够自动矢量化的代码,并不是在这里花费时间的原因。就是字符串的解析。
VOLK ( vector 优化内核库)有很多手写的 SIMD 内核,包括一个累积 float 数组的内核:
https://github.com/gnuradio/volk/blob/master/kernels/volk/volk_32f_accumulator_s32f.h
AVX 代码如下所示:
static inline void
volk_32f_accumulator_s32f_a_avx(float* result, const float* inputBuffer, unsigned int num_points)
{
float returnValue = 0;
unsigned int number = 0;
const unsigned int eighthPoints = num_points / 8;
const float* aPtr = inputBuffer;
__VOLK_ATTR_ALIGNED(32) float tempBuffer[8];
__m256 accumulator = _mm256_setzero_ps();
__m256 aVal = _mm256_setzero_ps();
for(;number < eighthPoints; number++){
aVal = _mm256_load_ps(aPtr);
accumulator = _mm256_add_ps(accumulator, aVal);
aPtr += 8;
}
_mm256_store_ps(tempBuffer, accumulator);
returnValue = tempBuffer[0];
returnValue += tempBuffer[1];
returnValue += tempBuffer[2];
returnValue += tempBuffer[3];
returnValue += tempBuffer[4];
returnValue += tempBuffer[5];
returnValue += tempBuffer[6];
returnValue += tempBuffer[7];
number = eighthPoints * 8;
for(;number < num_points; number++){
returnValue += (*aPtr++);
}
*result = returnValue;
}
它的作用是拥有一个八个元素累加器,它不断地向其中添加八个新元素的集合(分别),然后最后返回这八个累加器的总和。
关于c - 如何从 AVX 内在函数中获得用于计算基本统计数据的性能提升?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44769060/
我在为 MacOSX 构建的独立包中添加 DMG 背景的自定义图标时遇到问题。我在项目的根目录中添加了一个包。正在从中加载自定义图标,但没有加载 DMG 背景图标。我正在使用 Java fx 2.2.
Qt for Symbian 和 Qt for MeeGo 有什么区别?我知道 Qt 是一个交叉编译平台。这是否意味着如果我使用来自 Qt 的库,完全相同的库可以在所有支持 Qt 的设备(例如 Sym
我正在尝试使用 C# .NET 3.5/4.0 务实地运行 SQL Server 数据库的备份。我已经找到了如何完成此操作,但是我似乎找不到用于备份的命名空间库。 我正在寻找 Microsoft.Sq
我最近在疯狂学习 Java,但我通常是一名 .NET 开发人员。 (所以请原谅我的新手问题。) 在 .Net 中,我可以在不使用 IIS 的情况下开发 ASP.Net 页面,因为它有一个简化的 Web
这post仅当打印命令中有字符串时才有用。现在我有大量的源代码,其中包含一条声明,例如 print milk,butter 应该格式化为 print(milk,butter) 用\n 捕获行尾并不成功
所以我的问题是: https://gist.github.com/panSarin/4a221a0923927115584a 当我保存这个表格时,我收到了标题中的错误 NoMethodError (u
如何让 Html5 音频在点击时播放声音? (ogg 用于 Firefox 等浏览器,mp3 用于 chrome 等浏览器) 到目前为止,我可以通过 onclick 更改为单个文件类型,但我无法像在普
如果it1和it2有什么区别? std::set s; auto it1 = std::inserter(s, s.begin()); auto it2 = std::inserter(s, s.en
4.0.0 com.amkit myapp SpringMVCFirst
我目前使用 Eclipse 作为其他语言的 IDE,而且我习惯于不必离开 IDE 做任何事情 - 但是我真的很难为纯 ECMAScript-262 找到相同或类似的设置。 澄清一下,我不是在寻找 DO
我想将带有字符串数组的C# 结构发送到C++ 函数,该函数接受void * 作为c# 结构和char** 作为c# 结构字符串数组成员。 我能够将结构发送到 c++ 函数,但问题是,无法从 c++ 函
我正在使用动态创建的链接: 我想为f:param附加自定义转换器,以从#{name}等中删除空格。 但是f:param中没有转换器
是否可以利用Redis为.NET创建后写或直写式缓存?理想情况下,透明的高速缓存是由单个进程写入的,并且支持从数据库加载丢失的数据,并每隔一段时间持久保存脏块? 我已经搜查了好几个小时,也许是goog
我正在通过bash执行命令的ssh脚本。 FILENAMES=( "export_production_20200604.tgz" "export_production_log_2020060
我需要一个正则表达式来出现 0 到 7 个字母或 0 到 7 个数字。 例如:匹配:1234、asdbs 不匹配:123456789、absbsafsfsf、asf12 我尝试了([a-zA-Z]{0
我有一个用于会计期间的表格,该表格具有期间结束和开始的开始日期和结束日期。我使用此表来确定何时发生服务交易以及何时在查询中收集收入,例如... SELECT p.PeriodID, p.FiscalY
我很难为只接受字符或数字的 Laravel 构建正则表达式验证。它是这样的: 你好<-好的 123 <- 好的 你好123 <-不行 我现在的正则表达式是这样的:[A-Za-z]|[0-9]。 reg
您实际上会在 Repeater 上使用 OnItemDataBound 做什么? 最佳答案 “此事件为您提供在客户端显示数据项之前访问数据项的最后机会。引发此事件后,数据项将被清空,不再可用。” ~
我有一个 fragment 工作正常的项目,我正在使用 jeremyfeinstein 的 actionbarsherlock 和滑动菜单, 一切正常,但是当我想自定义左侧抽屉列表单元格时,出现异常
最近几天,我似乎平均分配时间在构建我的第一个应用程序和在这里发布问题!! 这是我的第一个应用程序,也是我们的设计师完成的第一个应用程序。我试图满足他所做的事情的外观和感觉,但我认为他没有做适当的事情。
我是一名优秀的程序员,十分优秀!