- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将函数转换为 AVX 版本。函数本身基本上只是比较浮点数并返回真/假取决于计算。
这是原始函数:
bool testSingle(float* thisFloat, float* otherFloat)
{
for (unsigned int k = 0; k < COL_COUNT / 2; k++)
{
if (thisFloat[k] < -otherFloat[COL_COUNT / 2 + k] || -thisFloat[COL_COUNT / 2 + k] > otherFloat[k])
{
return true;
}
}
return false;
}
__m256 testAVX(float* thisFloat, __m256* otherFloatInAVX)
{
__m256 vTemp1;
__m256 vTemp2;
__m256 vTempResult;
__m256 vEndResult = _mm256_set1_ps(0.0f);
for (unsigned int k = 0; k < COL_COUNT / 2; k++)
{
vTemp1 = _mm256_cmp_ps(_mm256_set1_ps(thisFloat[k]), otherFloatInAVX[COL_COUNT / 2 + k], _CMP_LT_OQ);
vTemp2 = _mm256_cmp_ps(_mm256_set1_ps(-thisFloat[COL_COUNT / 2 + k]), otherFloatInAVX[k], _CMP_GT_OQ);
vTempResult = _mm256_or_ps(vTemp1, vTemp2);
vEndResult = _mm256_or_ps(vTempResult, vEndResult);
if (_mm256_movemask_ps(vEndResult) == 255)
{
break;
}
}
return vEndResult;
}
#define ROW_COUNT 1000000
#define COL_COUNT 46
float randomNumberFloat(float Min, float Max)
{
return ((float(rand()) / float(RAND_MAX)) * (Max - Min)) + Min;
}
int main(int argc, char** argv)
{
float** thisFloat = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
thisFloat[i] = new float[COL_COUNT];
float** otherFloat1 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat1[i] = new float[COL_COUNT];
float** otherFloat2 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat2[i] = new float[COL_COUNT];
float** otherFloat3 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat3[i] = new float[COL_COUNT];
float** otherFloat4 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat4[i] = new float[COL_COUNT];
float** otherFloat5 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat5[i] = new float[COL_COUNT];
float** otherFloat6 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat6[i] = new float[COL_COUNT];
float** otherFloat7 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat7[i] = new float[COL_COUNT];
float** otherFloat8 = new float*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloat8[i] = new float[COL_COUNT];
// save to AVX
__m256** otherFloatInAVX = new __m256*[ROW_COUNT];
for (int i = 0; i < ROW_COUNT; ++i)
otherFloatInAVX[i] = new __m256[COL_COUNT];
// variable for results
unsigned int* resultsSingle = new unsigned int[ROW_COUNT];
__m256* resultsAVX = new __m256[ROW_COUNT];
// Generate Random Values
for (unsigned int i = 0; i < ROW_COUNT; i++)
{
for (unsigned int j = 0; j < COL_COUNT; j++)
{
thisFloat[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat1[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat2[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat3[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat4[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat5[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat6[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat7[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
otherFloat8[i][j] = randomNumberFloat(-1000.0f, 1000.0f);
}
for (unsigned int j = 0; j < COL_COUNT / 2; j++)
{
otherFloatInAVX[i][j] = _mm256_setr_ps(otherFloat1[i][j], otherFloat2[i][j], otherFloat3[i][j], otherFloat4[i][j], otherFloat5[i][j], otherFloat6[i][j], otherFloat7[i][j], otherFloat8[i][j]);
otherFloatInAVX[i][COL_COUNT / 2 + j] = _mm256_setr_ps(-otherFloat1[i][j], -otherFloat2[i][j], -otherFloat3[i][j], -otherFloat4[i][j], -otherFloat5[i][j], -otherFloat6[i][j], -otherFloat7[i][j], -otherFloat8[i][j]);
}
}
// do normal test
auto start_normal = std::chrono::high_resolution_clock::now();
for (unsigned int i = 0; i < ROW_COUNT; i++)
{
resultsSingle[i] = testSingle(thisFloat[i], otherFloat1[i]);
resultsSingle[i] = testSingle(thisFloat[i], otherFloat2[i]);
resultsSingle[i] = testSingle(thisFloat[i], otherFloat3[i]);
resultsSingle[i] = testSingle(thisFloat[i], otherFloat4[i]);
resultsSingle[i] = testSingle(thisFloat[i], otherFloat5[i]);
resultsSingle[i] = testSingle(thisFloat[i], otherFloat6[i]);
resultsSingle[i] = testSingle(thisFloat[i], otherFloat7[i]);
resultsSingle[i] = testSingle(thisFloat[i], otherFloat8[i]);
}
auto end_normal = std::chrono::high_resolution_clock::now();
auto duration_normal = std::chrono::duration_cast<std::chrono::milliseconds>(end_normal - start_normal);
std::cout << "Duration of normal test: " << duration_normal.count() << " ms \n";
// do AVX test
auto start_avx = std::chrono::high_resolution_clock::now();
for (unsigned int i = 0; i < ROW_COUNT; i++)
{
resultsAVX[i] = testAVX(thisFloat[i], otherFloatInAVX[i]);
}
auto end_avx = std::chrono::high_resolution_clock::now();
auto duration_avx = std::chrono::duration_cast<std::chrono::milliseconds>(end_avx - start_avx);
std::cout << "Duration of AVX test: " << duration_avx.count() << " ms";
return 0;
}
Duration of normal test: 290 ms
Duration of AVX test: 159 ms
最佳答案
我认为 AVX 版本必须具有与标量相同的 API(所以我几乎没有改变它):
bool testAVX(float * thisFloat, float * otherFloat)
{
size_t k = 0, size = COL_COUNT / 2, sizeAligned = size / 8 * 8;
__m256 zero = _mm256_set1_ps(0);
for (; k < sizeAligned; k += 8)
{
__m256 _thisFloat1 = _mm256_loadu_ps(thisFloat + k);
__m256 _thisFloat2 = _mm256_loadu_ps(thisFloat + k + size);
__m256 _otherFloat1 = _mm256_loadu_ps(otherFloat + k);
__m256 _otherFloat2 = _mm256_loadu_ps(otherFloat + k + size);
__m256 compareMask1 = _mm256_cmp_ps(_thisFloat1, _mm256_sub_ps(zero, _otherFloat2), _CMP_LT_OQ);
__m256 compareMask2 = _mm256_cmp_ps(_mm256_sub_ps(zero, _thisFloat2), _otherFloat1, _CMP_GT_OQ);
__m256 compareMask = _mm256_or_ps(compareMask1, compareMask2);
if (!_mm256_testz_ps(compareMask, compareMask))
return true;
}
for (; k < size; k++)
{
if (thisFloat[k] < -otherFloat[size + k] || -thisFloat[size + k] > otherFloat[k])
return true;
}
return false;
}
关于simd - AVX 版本没有预期的那么快,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42238240/
我对java有点陌生,所以如果我犯了一个简单的错误,请原谅我,但我不确定我哪里出错了,我收到的错误是“预期的.class,预期的标识符,而不是声明, ';'预期的。”我尝试了不同的方法,并从这些方法中
This question already has answers here: chai test array equality doesn't work as expected (3个答案) 3年前
我正在学习 Java(对不起,我的英语很差,这不是我的母语),当我在 Eclipse (JavaSE-1.7) 中在我输入的每个“try”中执行“try-finally” block 时,会出现以下消
我收到两个错误,指出 token 上的语法错误,ConstructorHeaderName expected instead & token “(”上的语法错误,< expected 在线: mTM.
我找不到错误。 Eclipse 给我这个错误。每个 { } 都是匹配的。请帮忙。 Multiple markers at this line - Syntax error on token “)”,
代码: import java.awt.*; import javax.swing.*; import java.awt.event.*; public class DoubleIt extends
我正在用 python(Vs 代码)编写代码,但出现此错误: Expected ")" Pylance 错误发生在:def main() 我试着运行我的 main 并将它打印到我的屏幕上。我用谷歌搜
我正在尝试按照 documentation 中的建议使用异步函数。但我收到此错误 意外的 token ,预期 ( async function getMoviesFromApi() { try
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
第一行包含一个表示数组长度的整数p。第二行包含用空格分隔的整数,这些整数描述数组中的每个元素。第三行打印一个整数,指示负数组的数量。 package asgn3; import java.util.*
好的,我是初学者,我必须修复此 java 表达式语言代码才能在我的系统 (Windchill) 中工作,但看起来我在语法中遗漏了一些内容: LWCNormalizedObject lwc =
我无法编译我的程序! 我想我缺少一个花括号,但我怎么也看不出在哪里! import javax.swing.*; import java.awt.*;
我的 jQuery 代码有问题,我的 Firebug 向我发出警告:需要选择器。 这是代码: $("img[id$='_tick']").each(function() { $(this).c
我的新类(class) Fountainofyouth 遇到了问题。尝试构建整个项目后,调试器显示 warning: extended initializer lists only available
我已经从 Java 转向 CPP,并且正在努力围绕构造构造函数链进行思考,我认为这是我的问题的根源。 我的头文件如下: public: GuidedTour(); GuidedTour(string
鉴于以下 for(var i=0; i< data.cats.length; i++) list += buildCategories(data.cats[i]); jsLint 告诉我 Expect
我有这个 json,但 Visual Studio Code 在标题中给了我警告。 [ { "title": "Book A", "imageUrl": "https:
我正在尝试编写一个有条件地禁用四个特殊成员函数(复制构造、移动构造、复制赋值和移动赋值)的包装类,下面是我用于测试目的的快速草稿: enum class special_member : uint8_
所以我用 F# 编写了一个非常简单的程序,它应该对 1000 以下的所有 3 和 5 的倍数求和: [1..999] |> List.filter (fun x -> x % 3 = 0 || x %
我是一名优秀的程序员,十分优秀!