objective-c - C 对比 vDSP 对比 NEON - NEON 怎么会和 C 一样慢？-6ren

objective-c - C 对比 vDSP 对比 NEON - NEON 怎么会和 C 一样慢？

转载作者：搜寻专家更新时间：2023-10-30 19:52:30

NEON 怎么会和 C 一样慢？

我一直在尝试构建一个快速直方图函数，通过为输入值分配一个值(这是它们最接近的范围阈值)，将输入值分入范围。这是应用于图像的东西，因此它必须很快(假设图像数组为 640x480，因此有 300,000 个元素)。直方图范围数字是 (0,25,50,75,100) 的倍数。输入将是 float ，最终输出显然是整数

我通过打开一个新的空项目(没有应用程序委托(delegate))并仅使用 main.m 文件在 xCode 上测试了以下版本。我删除了除 Accelerate 之外的所有链接库。

这是 C 实现:旧版本有很多 if then 但这是最终优化的逻辑。花了 11 秒和 300 毫秒。

int main(int argc, char *argv[])
{
  NSLog(@"starting");

  int sizeOfArray=300000;

  float* inputArray=(float*) malloc(sizeof(float)*sizeOfArray);
  int* outputArray=(int*) malloc(sizeof(int)*sizeOfArray);

  for (int i=0; i<sizeOfArray; ++i)
  {
    inputArray[i]=88.5;
  }

  //Assume range is [0,25,50,75,100]
  int lcd=25;

  for (int j=0; j<1000; ++j)// just to get some good time interval
  {
    for (int i=0; i<sizeOfArray; ++i)
    {
        //a 60.5 would give a 50. An 88.5 would give 100
        outputArray[i]=roundf(inputArray[i]/lcd)*lcd;
    }
  }
NSLog(@"done");
}

这是 vDSP 实现。即使有一些繁琐的整数来回 float ，也只用了 6 秒!将近 50% 的改进!

//vDSP implementation
 int main(int argc, char *argv[])
 {
   NSLog(@"starting");

   int sizeOfArray=300000;

   float* inputArray=(float*) malloc(sizeof(float)*sizeOfArray);
   float* outputArrayF=(float*) malloc(sizeof(float)*sizeOfArray);//vDSP requires matching of input output
   int* outputArray=(int*) malloc(sizeof(int)*sizeOfArray); //rounded value to the nearest integere
   float* finalOutputArrayF=(float*) malloc(sizeof(float)*sizeOfArray);
   int* finalOutputArray=(int*) malloc(sizeof(int)*sizeOfArray); //to compare apples to apples scenarios output


   for (int i=0; i<sizeOfArray; ++i)
   {
     inputArray[i]=37.0; //this will produce an final number of 25. On the other hand 37.5 would produce 50.
   }


   for (int j=0; j<1000; ++j)// just to get some good time interval
   {
     //Assume range is [0,25,50,75,100]
     float lcd=25.0f;

     //divide by lcd
     vDSP_vsdiv(inputArray, 1, &lcd, outputArrayF, 1,sizeOfArray);

     //Round to nearest integer
     vDSP_vfixr32(outputArrayF, 1,outputArray, 1, sizeOfArray);

     // MUST convert int to float (cannot just cast) then multiply by scalar - This step has the effect of rounding the number to the nearest lcd.
    vDSP_vflt32(outputArray, 1, outputArrayF, 1, sizeOfArray);
    vDSP_vsmul(outputArrayF, 1, &lcd, finalOutputArrayF, 1, sizeOfArray);
    vDSP_vfix32(finalOutputArrayF, 1, finalOutputArray, 1, sizeOfArray);
   }
  NSLog(@"done");
}

这是 Neon 的实现。这是我的第一次，所以玩得开心!它比 vDSP 慢，需要 9 秒和 300 毫秒，这对我来说没有意义。要么 vDSP 比 NEON 优化得更好，要么我做错了什么。

//NEON implementation
int main(int argc, char *argv[])
{
NSLog(@"starting");

int sizeOfArray=300000;

float* inputArray=(float*) malloc(sizeof(float)*sizeOfArray);
float* finalOutputArrayF=(float*) malloc(sizeof(float)*sizeOfArray);

for (int i=0; i<sizeOfArray; ++i)
{
    inputArray[i]=37.0; //this will produce an final number of 25. On the other hand 37.5 would produce 50.
}



for (int j=0; j<1000; ++j)// just to get some good time interval
{
    float32x4_t c0,c1,c2,c3;
    float32x4_t e0,e1,e2,e3;
    float32x4_t f0,f1,f2,f3;

    //ranges of histogram buckets
    float32x4_t buckets0=vdupq_n_f32(0);
    float32x4_t buckets1=vdupq_n_f32(25);
    float32x4_t buckets2=vdupq_n_f32(50);
    float32x4_t buckets3=vdupq_n_f32(75);
    float32x4_t buckets4=vdupq_n_f32(100);

    //midpoints of ranges
    float32x4_t thresholds1=vdupq_n_f32(12.5);
    float32x4_t thresholds2=vdupq_n_f32(37.5);
    float32x4_t thresholds3=vdupq_n_f32(62.5);
    float32x4_t thresholds4=vdupq_n_f32(87.5);


    for (int i=0; i<sizeOfArray;i+=16)
    {
        c0= vld1q_f32(&inputArray[i]);//load
        c1= vld1q_f32(&inputArray[i+4]);//load
        c2= vld1q_f32(&inputArray[i+8]);//load
        c3= vld1q_f32(&inputArray[i+12]);//load


        f0=buckets0;
        f1=buckets0;
        f2=buckets0;
        f3=buckets0;

        //register0
        e0=vcgtq_f32(c0,thresholds1);
        f0=vbslq_f32(e0, buckets1, f0);

        e0=vcgtq_f32(c0,thresholds2);
        f0=vbslq_f32(e0, buckets2, f0);

        e0=vcgtq_f32(c0,thresholds3);
        f0=vbslq_f32(e0, buckets3, f0);

        e0=vcgtq_f32(c0,thresholds4);
        f0=vbslq_f32(e0, buckets4, f0);



        //register1
        e1=vcgtq_f32(c1,thresholds1);
        f1=vbslq_f32(e1, buckets1, f1);

        e1=vcgtq_f32(c1,thresholds2);
        f1=vbslq_f32(e1, buckets2, f1);

        e1=vcgtq_f32(c1,thresholds3);
        f1=vbslq_f32(e1, buckets3, f1);

        e1=vcgtq_f32(c1,thresholds4);
        f1=vbslq_f32(e1, buckets4, f1);


        //register2
        e2=vcgtq_f32(c2,thresholds1);
        f2=vbslq_f32(e2, buckets1, f2);

        e2=vcgtq_f32(c2,thresholds2);
        f2=vbslq_f32(e2, buckets2, f2);

        e2=vcgtq_f32(c2,thresholds3);
        f2=vbslq_f32(e2, buckets3, f2);

        e2=vcgtq_f32(c2,thresholds4);
        f2=vbslq_f32(e2, buckets4, f2);


        //register3
        e3=vcgtq_f32(c3,thresholds1);
        f3=vbslq_f32(e3, buckets1, f3);

        e3=vcgtq_f32(c3,thresholds2);
        f3=vbslq_f32(e3, buckets2, f3);

        e3=vcgtq_f32(c3,thresholds3);
        f3=vbslq_f32(e3, buckets3, f3);

        e3=vcgtq_f32(c3,thresholds4);
        f3=vbslq_f32(e3, buckets4, f3);


        vst1q_f32(&finalOutputArrayF[i], f0);
        vst1q_f32(&finalOutputArrayF[i+4], f1);
        vst1q_f32(&finalOutputArrayF[i+8], f2);
        vst1q_f32(&finalOutputArrayF[i+12], f3);
    }
}
NSLog(@"done");
}

PS:这是我第一次在这种规模上进行基准测试，所以我尽量保持简单(大循环、设置代码常量、使用 NSlog 打印开始/结束时间、仅加速框架链接)。如果这些假设中的任何一个对结果有重大影响，请提出批评。

谢谢

最佳答案

首先，这本身并不是“NEON”。这是内在的。在 clang 或 gcc 下使用内部函数几乎不可能获得良好的 NEON 性能。如果您认为需要内部函数，则应该手写汇编程序。

vDSP 并不比 NEON“优化得更好”。 iOS 上的 vDSP 使用 NEON 处理器。 vDSP 对 NEON 的使用比您对 NEON 的使用优化得更好。

我还没有仔细研究您的内在代码，但最有可能(实际上几乎可以肯定)的问题是您正在创建等待状态。用汇编程序编写(内在函数只是戴着焊接手套编写的汇编程序)，与用 C 语言编写完全不同。您不会循环相同。你不比较相同。你需要一种新的思维方式。在汇编中，您一次可以做不止一件事(因为您有不同的逻辑单元)，但是您绝对必须以所有这些事情可以并行运行的方式来安排事情。良好的 assembly 使所有这些管道充满。如果您可以阅读您的代码并且它非常有意义，那么它可能是垃圾汇编代码。如果您从不重复自己，那可能是垃圾汇编代码。您需要仔细考虑进入哪个寄存器的内容以及有多少个周期，直到您被允许读取它。

如果它像音译 C 一样简单，那么编译器会为您完成。当你说“我要用 NEON 写这个”时，你是在说“我认为我可以写出比编译器更好的 NEON”，因为编译器也使用它。也就是说，通常可以编写比编译器(尤其是 gcc 和 clang)更好的 NEON。

如果您准备好进入那个世界(这是一个非常酷的世界)，您需要阅读一些资料。以下是我推荐的一些地方:

http://www.coranac.com/tonc/text/asm.htm (你真的想花点时间在这上面)
http://hilbert-space.de/ (整个网站。他很快就停止写作了。)
- 对于您的具体问题，他在这里进行了解释:http://hilbert-space.de/?p=22
关于您的具体问题的更多信息:Arm Neon Intrinsics vs hand assembly
http://wanderingcoder.net/2010/07/19/ought-arm/
http://wanderingcoder.net/2010/06/02/intro-neon/
您可能还对以下内容感兴趣:
- http://robnapier.net/blog/fast-bezier-intro-701
- http://robnapier.net/blog/faster-bezier-722

所说的一切...总是总是总是从重新考虑你的算法开始。通常答案不是如何快速计算循环，而是如何不那么频繁地调用循环。

关于objective-c - C 对比 vDSP 对比 NEON - NEON 怎么会和 C 一样慢？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14926351/

文章推荐： java - 货币代码到货币符号映射

文章推荐： database - 我使用 spring data jpa 的 native 查询有问题

文章推荐： java - 我的 Java 程序如何在其 .jar 文件中存储文件？

c++ - 怎么会？特征中未检测到别名
问题很简单:看代码。两个静态断言都通过了。我不希望第二个通过。这是错误还是正常行为？ #include #include template class Temp, class Specializ
c++ - 段错误——怎么会!
int Sequence::scoreDegeneracy() { cout const&) (in /usr/lib/libstdc++.so.6.0.13) ==17043== b
python - 打印作品，写不。怎么会？
我已经测试了下面的代码，除了第 29 行之外，一切都按照我的预期进行。final.write(invrow) 实际上并没有写入文件。当我使用简单的 print invrow 时，它显示没有问题。我没有
C++ _inline 在单例中被忽略并出现在我的探查器中。怎么会？
我的项目中有很多类被单例访问，如下所示: _inline GUI_BS_Map* GUI_GetBS_Map() { static GUI_BS_Map obj; return &ob
c - 这是什么意思？将变量的地址转换为 char。怎么会？
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
linux - 在 vi 中移动光标会产生意外的字符。怎么会？
我针对我遇到的问题截取了几张屏幕截图。基本上，我对 vi 的习惯和期望是能够使用箭头键在文档中移动，并且仍然能够阅读文档的实际内容。 Here is a shot of vi editor as I
objective-c - NSDateFormatter 崩溃。怎么会？
NSDateFormatter *timeFormatter = [[[NSDateFormatter alloc] init] autorelease]; [timeFormatter se
javascript - canvas.toDataURL() 不会改变图像质量。怎么会？
根据docs : The HTMLCanvasElement.toDataURL() method returns a data URI containing a representation of
python - 最大递归并不完全是 sys.getrecursionlimit() 所声称的。怎么会？
我做了一个小函数，可以实际测量最大递归限制: def f(x): r = x try: r = f(x+1) except Exception as e:
javascript - LocationCollection 未标记为 ScriptableType，但可以在脚本中实例化(怎么会？)
我正在开发一个小型 silverlight 应用程序，该应用程序涉及在 javascript 和 silverlight 之间传递一些数据。我也在使用 silverlight 虚拟地球控件。我遇到的
html - CSS 似乎在我的 HTML 文件中不起作用。怎么会？
我在Chrome和Firefox中都试过了，浏览器好像没有问题。我的 CSS 是有效的，但是当我通过验证运行我的 HTML 时，它显示“元素链接上属性 rel 的错误值‘stylesheet’:字符串
c# - Ninject multi-injection 并没有我想象的那么贪心!怎么会？
如果我有一个类，其中的 ctor 设置为像这样的多重注入(inject): public Shogun(IEnumerable allWeapons) { this.allWeapons =
ruby-on-rails - 找不到路径 "/users/"的设计映射。怎么会？
我现在正在使用 devise/omniauth。通过 facebook/twitter 注册后，我想重定向到一个名为“验证电子邮件”的页面，他们可以在其中验证他们的电子邮件地址是否正确。我只是想让
blockchain - 以太坊 - 两个相同的交易，但实际使用的 Gas 不同 - 怎么会？
我有两个相同的交易，在这种情况下发送相同数量的代币，导致实际消耗的气体不同(不是成本，而是显着差异)。以下是 tx 哈希值: 0x2cbb4b35d87cabe1a7b7bcb562e4e046e9
Apache:ExpiresDefault 不起作用，而 "Header"起作用。怎么会？
如果我这样做: ExpiresActive On ExpiresDefault "access plus 30 days" 它没有正确设置 Expire header
java - VisualVM "Sampler->Cpu->CpuSettings"呈灰色。怎么会？
我无法过滤我想要查看的特定软件包，因为 cpusettings 菜单呈灰色。我正在使用 VisualVM 运行程序从 eclipse 运行我的应用程序。最佳答案采样过程中无法更改 CPU 设置。
java - HTMLPanel 可以在 uiBinder 中使用，即使它没有无参数构造函数。怎么会？
在 http://www.gwtproject.org/doc/latest/DevGuideUiBinder.html 它指出要在 uiBinder 模板中使用小部件: they must be d
c++ - 只有当 len < 3 时，我才会收到堆损坏错误。怎么会？
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
javascript - 无法在 Chrome 浏览器中查看我的下拉菜单，但是当我在此处插入代码时，我可以查看它。怎么会？
我有下面的代码，但是，当我用 visual studio code 修改代码并在我的 Chrome 浏览器中运行它时，我在“热门产品”中看不到下拉菜单。部分。但是，当我在此处 (stackoverf
entity-framework - 在 Entity Framework 代码优先方法中，两个字段的组合必须是唯一的。怎么会
我有两个类(class)联系人和群组 FirstName 和LastName 的组合必须是唯一的，并且可以为单个联系人添加多个地址。我如何在 Entity Framework 代码优先方法中做到这一点

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

objective-c - C 对比 vDSP 对比 NEON - NEON 怎么会和 C 一样慢？