gpt4 book ai didi

c++ - 无分支 K 均值(或其他优化)

转载 作者:行者123 更新时间:2023-12-01 22:35:26 29 4
gpt4 key购买 nike

注意:我希望能得到更多有关如何处理和提出此类解决方案的指南,而不是解决方案本身。
我的系统中有一个非常关键的功能,它在特定上下文中显示为排名第一的分析热点。它处于 k-means 迭代的中间(已经是多线程的,使用并行处理每个工作线程中点的子范围)。

ClusterPoint& pt = points[j];
pt.min_index = -1;
pt.min_dist = numeric_limits<float>::max();
for (int i=0; i < num_centroids; ++i)
{
const ClusterCentroid& cent = centroids[i];
const float dist = ...;
if (dist < pt.min_dist) // <-- #1 hotspot
{
pt.min_dist = dist;
pt.min_index = i;
}
}
处理这部分代码所需的任何时间节省都非常重要,所以我经常摆弄它。例如,可能值得将质心循环放在外面,并为给定的质心并行迭代这些点。这里的聚类点数以百万计,而质心数以千计。该算法适用于少数迭代(通常在 10 次以下)。它不寻求完美的收敛/稳定性,只是一些“合理”的近似。
任何想法都值得赞赏,但我真正渴望发现的是,是否可以使此代码无分支,因为它允许 SIMD 版本。我还没有真正发展出那种轻松掌握如何提出无分支解决方案的心理能力:我的大脑在那里失败了,就像我早期第一次接触递归时一样,所以这是一个关于如何编写无分支解决方案的指南代码以及如何为其开发适当的思维方式也会有所帮助。
简而言之,我正在寻找有关如何微优化此代码的任何指南、提示和建议(不一定是解决方案)。它很可能有算法改进的空间,但我的盲点一直是微优化解决方案(我很想知道如何更有效地应用它们而不会过度使用它)。它已经是紧密多线程的,逻辑上有大块并行,所以我几乎被推到了微优化的角落,这是在没有更智能算法的情况下尝试的更快的事情之一。我们可以完全自由地更改内存布局。
响应算法建议
关于在寻求微优化 O(knm) 算法时看到的所有错误,该算法可以在算法级别明显改进,我完全同意。这将这个特定问题推向了一个有点学术和不切实际的领域。然而,如果允许我讲一个轶事,我来自高级编程的原始背景——非常强调广泛的、大规模的观点、安全性,很少关注低级实现细节。我最近将项目切换到一种非常不同的现代风格的项目,我正在从缓存效率、GPGPU、无分支技术、SIMD、实际上优于 malloc 的专用内存分配器的同行那里学习各种新技巧(但对于特定场景)等。
这是我试图 catch 最新性能趋势的地方,令人惊讶的是我发现我在 90 年代经常喜欢的那些通常是链接/树型结构的旧数据结构实际上被更幼稚的人大大超越了,粗暴的,微优化的,并行化的代码在连续的内存块上应用调整指令。同时有点令人失望,因为我觉得我们现在更适合机器使用算法并以这种方式缩小可能性(尤其是使用 GPGPU)。
最有趣的是,我发现这种类型的微优化、快速数组处理代码比我以前使用的复杂算法和数据结构更容易维护。首先,它们更容易概括。此外,我的同行通常会接受客户对某个区域特定放缓的投诉,只需为某些 SIMD 进行并行处理,然后就可以以不错的速度完成。算法改进通常可以提供更多,但是可以应用这些微优化的速度和非侵入性让我想在该领域了解更多,因为阅读有关更好算法的论文可能需要一些时间(并且需要更多广泛的变化)。所以我最近一直在加入微优化的潮流,在这种特定情况下可能有点太多了,但我的好奇心更多地是关于扩大我对任何场景的可能解决方案的范围。
拆卸
注意:我真的非常不擅长组装,所以我经常以一种反复试验的方式调整更多的东西,对为什么 vtune 中显示的热点可能是瓶颈提出一些有根据的猜测,然后尝试看看如果时间有所改善,假设如果时间确实有所改善,则假设猜测有一定的道理,或者如果没有改善,则完全没有达到目标。
000007FEEE3FB8A1  jl          thread_partition+70h (7FEEE3FB780h) 
{
ClusterPoint& pt = points[j];
pt.min_index = -1;
pt.min_dist = numeric_limits<float>::max();
for (int i = 0; i < num_centroids; ++i)
000007FEEE3FB8A7 cmp ecx,r10d
000007FEEE3FB8AA jge thread_partition+1F4h (7FEEE3FB904h)
000007FEEE3FB8AC lea rax,[rbx+rbx*2]
000007FEEE3FB8B0 add rax,rax
000007FEEE3FB8B3 lea r8,[rbp+rax*8+8]
{
const ClusterCentroid& cent = centroids[i];
const float x = pt.pos[0] - cent.pos[0];
const float y = pt.pos[1] - cent.pos[1];
000007FEEE3FB8B8 movss xmm0,dword ptr [rdx]
const float z = pt.pos[2] - cent.pos[2];
000007FEEE3FB8BC movss xmm2,dword ptr [rdx+4]
000007FEEE3FB8C1 movss xmm1,dword ptr [rdx-4]
000007FEEE3FB8C6 subss xmm2,dword ptr [r8]
000007FEEE3FB8CB subss xmm0,dword ptr [r8-4]
000007FEEE3FB8D1 subss xmm1,dword ptr [r8-8]
const float dist = x*x + y*y + z*z;
000007FEEE3FB8D7 mulss xmm2,xmm2
000007FEEE3FB8DB mulss xmm0,xmm0
000007FEEE3FB8DF mulss xmm1,xmm1
000007FEEE3FB8E3 addss xmm2,xmm0
000007FEEE3FB8E7 addss xmm2,xmm1

if (dist < pt.min_dist)
// VTUNE HOTSPOT
000007FEEE3FB8EB comiss xmm2,dword ptr [rdx-8]
000007FEEE3FB8EF jae thread_partition+1E9h (7FEEE3FB8F9h)
{
pt.min_dist = dist;
000007FEEE3FB8F1 movss dword ptr [rdx-8],xmm2
pt.min_index = i;
000007FEEE3FB8F6 mov dword ptr [rdx-10h],ecx
000007FEEE3FB8F9 inc ecx
000007FEEE3FB8FB add r8,30h
000007FEEE3FB8FF cmp ecx,r10d
000007FEEE3FB902 jl thread_partition+1A8h (7FEEE3FB8B8h)
for (int j = *irange.first; j < *irange.last; ++j)
000007FEEE3FB904 inc edi
000007FEEE3FB906 add rdx,20h
000007FEEE3FB90A cmp edi,dword ptr [rsi+4]
000007FEEE3FB90D jl thread_partition+31h (7FEEE3FB741h)
000007FEEE3FB913 mov rbx,qword ptr [irange]
}
}
}
}
我们被迫瞄准 SSE 2 —— 有点落后于我们的时代,但是当我们假设即使 SSE 4 也可以作为最低要求时(用户有一些原型(prototype) Intel 机器),用户群实际上被绊倒了一次。
独立测试更新:~5.6 秒
我非常感谢所提供的所有帮助!因为代码库非常广泛,并且触发该代码的条件很复杂(跨多个线程触发的系统事件),所以每次都进行实验性更改并对其进行概要分析有点笨拙。因此,我在侧面设置了一个表面测试,作为一个独立的应用程序,其他人也可以运行和试用该应用程序,以便我可以试验所有这些慷慨提供的解决方案。
#define _SECURE_SCL 0
#include <iostream>
#include <fstream>
#include <vector>
#include <limits>
#include <ctime>
#if defined(_MSC_VER)
#define ALIGN16 __declspec(align(16))
#else
#include <malloc.h>
#define ALIGN16 __attribute__((aligned(16)))
#endif

using namespace std;

// Aligned memory allocation (for SIMD).
static void* malloc16(size_t amount)
{
#ifdef _MSC_VER
return _aligned_malloc(amount, 16);
#else
void* mem = 0;
posix_memalign(&mem, 16, amount);
return mem;
#endif
}
template <class T>
static T* malloc16_t(size_t num_elements)
{
return static_cast<T*>(malloc16(num_elements * sizeof(T)));
}

// Aligned free.
static void free16(void* mem)
{
#ifdef _MSC_VER
return _aligned_free(mem);
#else
free(mem);
#endif
}

// Test parameters.
enum {num_centroids = 512};
enum {num_points = num_centroids * 2000};
enum {num_iterations = 5};
static const float range = 10.0f;

class Points
{
public:
Points(): data(malloc16_t<Point>(num_points))
{
for (int p=0; p < num_points; ++p)
{
const float xyz[3] =
{
range * static_cast<float>(rand()) / RAND_MAX,
range * static_cast<float>(rand()) / RAND_MAX,
range * static_cast<float>(rand()) / RAND_MAX
};
init(p, xyz);
}
}
~Points()
{
free16(data);
}
void init(int n, const float* xyz)
{
data[n].centroid = -1;
data[n].xyz[0] = xyz[0];
data[n].xyz[1] = xyz[1];
data[n].xyz[2] = xyz[2];
}
void associate(int n, int new_centroid)
{
data[n].centroid = new_centroid;
}
int centroid(int n) const
{
return data[n].centroid;
}
float* operator[](int n)
{
return data[n].xyz;
}

private:
Points(const Points&);
Points& operator=(const Points&);
struct Point
{
int centroid;
float xyz[3];
};
Point* data;
};

class Centroids
{
public:
Centroids(Points& points): data(malloc16_t<Centroid>(num_centroids))
{
// Naive initial selection algorithm, but outside the
// current area of interest.
for (int c=0; c < num_centroids; ++c)
init(c, points[c]);
}
~Centroids()
{
free16(data);
}
void init(int n, const float* xyz)
{
data[n].count = 0;
data[n].xyz[0] = xyz[0];
data[n].xyz[1] = xyz[1];
data[n].xyz[2] = xyz[2];
}
void reset(int n)
{
data[n].count = 0;
data[n].xyz[0] = 0.0f;
data[n].xyz[1] = 0.0f;
data[n].xyz[2] = 0.0f;
}
void sum(int n, const float* pt_xyz)
{
data[n].xyz[0] += pt_xyz[0];
data[n].xyz[1] += pt_xyz[1];
data[n].xyz[2] += pt_xyz[2];
++data[n].count;
}
void average(int n)
{
if (data[n].count > 0)
{
const float inv_count = 1.0f / data[n].count;
data[n].xyz[0] *= inv_count;
data[n].xyz[1] *= inv_count;
data[n].xyz[2] *= inv_count;
}
}
float* operator[](int n)
{
return data[n].xyz;
}
int find_nearest(const float* pt_xyz) const
{
float min_dist_squared = numeric_limits<float>::max();
int min_centroid = -1;
for (int c=0; c < num_centroids; ++c)
{
const float* cen_xyz = data[c].xyz;
const float x = pt_xyz[0] - cen_xyz[0];
const float y = pt_xyz[1] - cen_xyz[1];
const float z = pt_xyz[2] - cen_xyz[2];
const float dist_squared = x*x + y*y * z*z;

if (min_dist_squared > dist_squared)
{
min_dist_squared = dist_squared;
min_centroid = c;
}
}
return min_centroid;
}

private:
Centroids(const Centroids&);
Centroids& operator=(const Centroids&);
struct Centroid
{
int count;
float xyz[3];
};
Centroid* data;
};

// A high-precision real timer would be nice, but we lack C++11 and
// the coarseness of the testing here should allow this to suffice.
static double sys_time()
{
return static_cast<double>(clock()) / CLOCKS_PER_SEC;
}

static void k_means(Points& points, Centroids& centroids)
{
// Find the closest centroid for each point.
for (int p=0; p < num_points; ++p)
{
const float* pt_xyz = points[p];
points.associate(p, centroids.find_nearest(pt_xyz));
}

// Reset the data of each centroid.
for (int c=0; c < num_centroids; ++c)
centroids.reset(c);

// Compute new position sum of each centroid.
for (int p=0; p < num_points; ++p)
centroids.sum(points.centroid(p), points[p]);

// Compute average position of each centroid.
for (int c=0; c < num_centroids; ++c)
centroids.average(c);
}

int main()
{
Points points;
Centroids centroids(points);

cout << "Starting simulation..." << endl;
double start_time = sys_time();
for (int i=0; i < num_iterations; ++i)
k_means(points, centroids);
cout << "Time passed: " << (sys_time() - start_time) << " secs" << endl;
cout << "# Points: " << num_points << endl;
cout << "# Centroids: " << num_centroids << endl;

// Write the centroids to a file to give us some crude verification
// of consistency as we make changes.
ofstream out("centroids.txt");
for (int c=0; c < num_centroids; ++c)
out << "Centroid " << c << ": " << centroids[c][0] << "," << centroids[c][1] << "," << centroids[c][2] << endl;
}
我知道表面测试的危险性,但由于它已经被认为是以前真实世界 session 的热点,我希望这是可以原谅的。我也只对与微优化此类代码相关的一般技术感兴趣。
我在分析这个时确实得到了稍微不同的结果。时间在这里的循环中分散得更均匀,我不知道为什么。也许是因为数据更小(我省略了成员并提升了 min_dist 成员并使其成为局部变量)。质心与点之间的确切比率也有点不同,但希望足够接近以将此处的改进转化为原始代码。在这个肤浅的测试中它也是单线程的,反汇编看起来很不一样,所以我可能会冒险在没有原始版本的情况下优化这个肤浅的测试(我现在愿意承担这个风险,因为我对扩展我的知识更感兴趣可以优化这些情况的技术,而不是针对这种情况的解决方案)。
VTune
根据 Yochai Timmer 的建议更新 -- ~12.5 秒
哦,我在没有很好地理解汇编的情况下面临着微优化的困境。我换了这个:
        -if (min_dist_squared > dist_squared)
-{
- min_dist_squared = dist_squared;
- pt.centroid = c;
-}
有了这个:
        +const bool found_closer = min_dist_squared > dist_squared;
+pt.centroid = bitselect(found_closer, c, pt.centroid);
+min_dist_squared = bitselect(found_closer, dist_squared, min_dist_squared);
.. 只是发现时间从 ~5.6 秒上升到 ~12.5 秒。然而,这不是他的错,也不会影响他的解决方案的值(value)——这是我未能理解机器级别真正发生的事情并在黑暗中刺伤的原因。那个显然错过了,显然我不是我最初认为的分支预测错误的受害者。尽管如此,他提出的解决方案是在这种情况下尝试的绝妙且通用的功能,我很高兴将其添加到我的提示和技巧工具箱中。现在进行第 2 轮。
Harold 的 SIMD 解决方案 - 2.496 秒(见警告)
这个解决方案可能很棒。将集群代表转换为 SoA 后,我获得了大约 2.5 秒的时间!不幸的是,似乎存在某种故障。对于最终输出,我得到了非常不同的结果,这表明精度差异不仅仅是微小的差异,包括一些接近末尾的值为 0 的质心(暗示在搜索中找不到它们)。我一直在尝试使用调试器检查 SIMD 逻辑以查看可能发生的情况——这可能只是我的转录错误,但这里是代码,以防有人发现错误。
如果可以在不减慢结果的情况下纠正错误,那么这种速度提升比我从纯微优化中想象的还要多!
    // New version of Centroids::find_nearest (from harold's solution):
int find_nearest(const float* pt_xyz) const
{
__m128i min_index = _mm_set_epi32(3, 2, 1, 0);
__m128 xdif = _mm_sub_ps(_mm_set1_ps(pt_xyz[0]), _mm_load_ps(cen_x));
__m128 ydif = _mm_sub_ps(_mm_set1_ps(pt_xyz[1]), _mm_load_ps(cen_y));
__m128 zdif = _mm_sub_ps(_mm_set1_ps(pt_xyz[2]), _mm_load_ps(cen_z));
__m128 min_dist = _mm_add_ps(_mm_add_ps(_mm_mul_ps(xdif, xdif),
_mm_mul_ps(ydif, ydif)),
_mm_mul_ps(zdif, zdif));
__m128i index = min_index;
for (int i=4; i < num_centroids; i += 4)
{
xdif = _mm_sub_ps(_mm_set1_ps(pt_xyz[0]), _mm_load_ps(cen_x + i));
ydif = _mm_sub_ps(_mm_set1_ps(pt_xyz[1]), _mm_load_ps(cen_y + i));
zdif = _mm_sub_ps(_mm_set1_ps(pt_xyz[2]), _mm_load_ps(cen_z + i));
__m128 dist = _mm_add_ps(_mm_add_ps(_mm_mul_ps(xdif, xdif),
_mm_mul_ps(ydif, ydif)),
_mm_mul_ps(zdif, zdif));
__m128i mask = _mm_castps_si128(_mm_cmplt_ps(dist, min_dist));
min_dist = _mm_min_ps(min_dist, dist);
min_index = _mm_or_si128(_mm_and_si128(index, mask),
_mm_andnot_si128(mask, min_index));
index = _mm_add_epi32(index, _mm_set1_epi32(4));
}

ALIGN16 float mdist[4];
ALIGN16 uint32_t mindex[4];
_mm_store_ps(mdist, min_dist);
_mm_store_si128((__m128i*)mindex, min_index);

float closest = mdist[0];
int closest_i = mindex[0];
for (int i=1; i < 4; i++)
{
if (mdist[i] < closest)
{
closest = mdist[i];
closest_i = mindex[i];
}
}
return closest_i;
}
Harold 的 SIMD 解决方案(更正) - ~2.5 秒
应用更正并对其进行测试后,结果完好无损,并且与原始代码库类似的改进功能正常!
由于这触及了我试图更好地理解的知识的 chalice (无分支 SIMD),我将用一些额外的 Prop 奖励解决方案,使操作速度提高一倍以上。我在试图理解它时做了功课,因为我的目标不仅仅是减轻这个热点,而是扩展我对处理它们的可能解决方案的个人理解。
尽管如此,我很感谢这里从算法建议到非常酷的 bitselect 技巧的所有贡献!我希望我能接受所有的答案。我可能最终会在某个时候尝试所有这些,但现在我的功课是理解这些非算术 SIMD 操作中的一些。
int find_nearest_simd(const float* pt_xyz) const
{
__m128i min_index = _mm_set_epi32(3, 2, 1, 0);
__m128 pt_xxxx = _mm_set1_ps(pt_xyz[0]);
__m128 pt_yyyy = _mm_set1_ps(pt_xyz[1]);
__m128 pt_zzzz = _mm_set1_ps(pt_xyz[2]);

__m128 xdif = _mm_sub_ps(pt_xxxx, _mm_load_ps(cen_x));
__m128 ydif = _mm_sub_ps(pt_yyyy, _mm_load_ps(cen_y));
__m128 zdif = _mm_sub_ps(pt_zzzz, _mm_load_ps(cen_z));
__m128 min_dist = _mm_add_ps(_mm_add_ps(_mm_mul_ps(xdif, xdif),
_mm_mul_ps(ydif, ydif)),
_mm_mul_ps(zdif, zdif));
__m128i index = min_index;
for (int i=4; i < num_centroids; i += 4)
{
xdif = _mm_sub_ps(pt_xxxx, _mm_load_ps(cen_x + i));
ydif = _mm_sub_ps(pt_yyyy, _mm_load_ps(cen_y + i));
zdif = _mm_sub_ps(pt_zzzz, _mm_load_ps(cen_z + i));
__m128 dist = _mm_add_ps(_mm_add_ps(_mm_mul_ps(xdif, xdif),
_mm_mul_ps(ydif, ydif)),
_mm_mul_ps(zdif, zdif));
index = _mm_add_epi32(index, _mm_set1_epi32(4));
__m128i mask = _mm_castps_si128(_mm_cmplt_ps(dist, min_dist));
min_dist = _mm_min_ps(min_dist, dist);
min_index = _mm_or_si128(_mm_and_si128(index, mask),
_mm_andnot_si128(mask, min_index));
}

ALIGN16 float mdist[4];
ALIGN16 uint32_t mindex[4];
_mm_store_ps(mdist, min_dist);
_mm_store_si128((__m128i*)mindex, min_index);

float closest = mdist[0];
int closest_i = mindex[0];
for (int i=1; i < 4; i++)
{
if (mdist[i] < closest)
{
closest = mdist[i];
closest_i = mindex[i];
}
}
return closest_i;
}

最佳答案

太糟糕了,我们不能使用 SSE4.1,但很好,SSE2 是。我还没有测试过这个,只是编译它以查看是否存在语法错误并查看程序集是否有意义(这基本上没问题,尽管 GCC 溢出 min_index 即使有些 xmm 寄存器未使用,不知道为什么会发生这种情况)

int find_closest(float *x, float *y, float *z,
float pt_x, float pt_y, float pt_z, int n) {
__m128i min_index = _mm_set_epi32(3, 2, 1, 0);
__m128 xdif = _mm_sub_ps(_mm_set1_ps(pt_x), _mm_load_ps(x));
__m128 ydif = _mm_sub_ps(_mm_set1_ps(pt_y), _mm_load_ps(y));
__m128 zdif = _mm_sub_ps(_mm_set1_ps(pt_z), _mm_load_ps(z));
__m128 min_dist = _mm_add_ps(_mm_add_ps(_mm_mul_ps(xdif, xdif),
_mm_mul_ps(ydif, ydif)),
_mm_mul_ps(zdif, zdif));
__m128i index = min_index;
for (int i = 4; i < n; i += 4) {
xdif = _mm_sub_ps(_mm_set1_ps(pt_x), _mm_load_ps(x + i));
ydif = _mm_sub_ps(_mm_set1_ps(pt_y), _mm_load_ps(y + i));
zdif = _mm_sub_ps(_mm_set1_ps(pt_z), _mm_load_ps(z + i));
__m128 dist = _mm_add_ps(_mm_add_ps(_mm_mul_ps(xdif, xdif),
_mm_mul_ps(ydif, ydif)),
_mm_mul_ps(zdif, zdif));
index = _mm_add_epi32(index, _mm_set1_epi32(4));
__m128i mask = _mm_castps_si128(_mm_cmplt_ps(dist, min_dist));
min_dist = _mm_min_ps(min_dist, dist);
min_index = _mm_or_si128(_mm_and_si128(index, mask),
_mm_andnot_si128(mask, min_index));
}
float mdist[4];
_mm_store_ps(mdist, min_dist);
uint32_t mindex[4];
_mm_store_si128((__m128i*)mindex, min_index);
float closest = mdist[0];
int closest_i = mindex[0];
for (int i = 1; i < 4; i++) {
if (mdist[i] < closest) {
closest = mdist[i];
closest_i = mindex[i];
}
}
return closest_i;
}

像往常一样,它期望指针是 16 对齐的。此外,填充应该是无限远的点(因此它们永远不会最接近目标)。

SSE 4.1 会让你替换这个
min_index = _mm_or_si128(_mm_and_si128(index, mask), 
_mm_andnot_si128(mask, min_index));

这样
min_index = _mm_blendv_epi8(min_index, index, mask);

这是一个 asm 版本,为 vsyasm 制作,测试了一下(似乎有效)
bits 64

section .data

align 16
centroid_four:
dd 4, 4, 4, 4
centroid_index:
dd 0, 1, 2, 3

section .text

global find_closest

proc_frame find_closest
;
; arguments:
; ecx: number of points (multiple of 4 and at least 4)
; rdx -> array of 3 pointers to floats (x, y, z) (the points)
; r8 -> array of 3 floats (the reference point)
;
alloc_stack 0x58
save_xmm128 xmm6, 0
save_xmm128 xmm7, 16
save_xmm128 xmm8, 32
save_xmm128 xmm9, 48
[endprolog]
movss xmm0, [r8]
shufps xmm0, xmm0, 0
movss xmm1, [r8 + 4]
shufps xmm1, xmm1, 0
movss xmm2, [r8 + 8]
shufps xmm2, xmm2, 0
; pointers to x, y, z in r8, r9, r10
mov r8, [rdx]
mov r9, [rdx + 8]
mov r10, [rdx + 16]
; reference point is in xmm0, xmm1, xmm2 (x, y, z)
movdqa xmm3, [rel centroid_index] ; min_index
movdqa xmm4, xmm3 ; current index
movdqa xmm9, [rel centroid_four] ; index increment
paddd xmm4, xmm9
; calculate initial min_dist, xmm5
movaps xmm5, [r8]
subps xmm5, xmm0
movaps xmm7, [r9]
subps xmm7, xmm1
movaps xmm8, [r10]
subps xmm8, xmm2
mulps xmm5, xmm5
mulps xmm7, xmm7
mulps xmm8, xmm8
addps xmm5, xmm7
addps xmm5, xmm8
add r8, 16
add r9, 16
add r10, 16
sub ecx, 4
jna _tail
_loop:
movaps xmm6, [r8]
subps xmm6, xmm0
movaps xmm7, [r9]
subps xmm7, xmm1
movaps xmm8, [r10]
subps xmm8, xmm2
mulps xmm6, xmm6
mulps xmm7, xmm7
mulps xmm8, xmm8
addps xmm6, xmm7
addps xmm6, xmm8
add r8, 16
add r9, 16
add r10, 16
movaps xmm7, xmm6
cmpps xmm6, xmm5, 1
minps xmm5, xmm7
movdqa xmm7, xmm6
pand xmm6, xmm4
pandn xmm7, xmm3
por xmm6, xmm7
movdqa xmm3, xmm6
paddd xmm4, xmm9
sub ecx, 4
ja _loop
_tail:
; calculate horizontal minumum
pshufd xmm0, xmm5, 0xB1
minps xmm0, xmm5
pshufd xmm1, xmm0, 0x4E
minps xmm0, xmm1
; find index of the minimum
cmpps xmm0, xmm5, 0
movmskps eax, xmm0
bsf eax, eax
; index into xmm3, sort of
movaps [rsp + 64], xmm3
mov eax, [rsp + 64 + rax * 4]
movaps xmm9, [rsp + 48]
movaps xmm8, [rsp + 32]
movaps xmm7, [rsp + 16]
movaps xmm6, [rsp]
add rsp, 0x58
ret
endproc_frame

在 C++ 中:
extern "C" int find_closest(int n, float** points, float* reference_point);

关于c++ - 无分支 K 均值(或其他优化),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30023245/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com