FPU与软件仿真的性能对比-6ren

FPU与软件仿真的性能对比

转载作者：行者123 更新时间：2023-12-04 19:10:55

24

4

虽然我知道(所以我被告知)浮点协处理器的工作速度比任何浮点运算的软件实现都要快，但我完全没有直觉感觉到这种差异有多大，按数量级排序。

答案可能取决于应用程序和您的工作地点，在微处理器和 super 计算机之间。我对计算机模拟特别感兴趣。

你能指出这个问题的文章或论文吗？

最佳答案

一般的答案显然会很模糊，因为性能取决于很多因素。

但是，根据我的理解，在硬件中没有实现浮点 (FP) 操作的处理器中，软件实现通常是 慢 10 到 100 倍 (或者甚至更糟，如果实现不好的话)比整数运算，它们总是在 CPU 上的硬件中实现。

确切的性能将取决于许多因素，例如整数硬件的功能 - 一些 CPU 没有 FPU，但在其整数算法中具有有助于实现 FP 计算的快速软件仿真的功能。

njuffa 提到的论文，Cristina Iordache and Ping Tak Peter Tang, An Overview of Floating-Point Support and Math Library on the Intel XScale Architecture支持这一点。对于英特尔 XScale将列表处理为延迟(摘录):

integer addition or subtraction:  1 cycle
integer multiplication:           2-6 cycles
fp addition (emulated):           34 cycles
fp multiplication (emulated):     35 cycles

因此，这将导致整数和 FP 算术之间的因数约为 10-30。该论文还提到 GNU 实现(GNU 编译器默认使用的实现)大约慢 10 倍，总系数为 100-300。

最后，注意以上是针对FP仿真为 的情况。编译成程序由编译器。一些操作系统(例如 Linux 和 WindowsCE)也有 FP 仿真 在操作系统内核中 .优点是即使没有 FP 仿真(即使用 FPU 指令)编译的代码也可以在没有 FPU 的进程上运行 - 内核将在软件中透明地仿真不受支持的 FPU 指令。然而，由于额外的开销，这种模拟甚至比编译到程序中的软件模拟还要慢(大约是另一个因素 10)。显然，这种情况只与处理器架构有关，其中一些处理器具有 FPU，而另一些则没有(例如 x86 和 ARM)。

注意:此答案将(模拟)FP 运算与同一处理器上的整数运算的性能进行了比较。您的问题也可能被解读为与性能有关
与硬件 FP 操作相比的(模拟)FP 操作(不确定您的意思)。但是，结果将大致相同，因为如果 FP 在硬件中实现，它通常(几乎)与整数运算一样快。

关于FPU与软件仿真的性能对比，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15174105/

24

4

0

文章推荐： r - 扁平化/非规范化 R 聚合函数的结果

文章推荐： antlr4:在创建解析树时忽略多余的标记

虚拟化 CPU 仿真
我对虚拟机的 CPU 虚拟化有疑问。我无法理解即时到 native 代码翻译与陷阱和模拟翻译之间的区别。据我所知，在第一种情况下，假设我从不同的平台模拟二进制代码，如果我有 x86 CPU，代码将转
虚拟化 CPU 仿真
我对虚拟机的 CPU 虚拟化有疑问。我无法理解即时到 native 代码翻译与陷阱和模拟翻译之间的区别。据我所知，在第一种情况下，假设我从不同的平台模拟二进制代码，如果我有 x86 CPU，代码将转
matlab - MATLAB 仿真
我必须模拟 Ant 在它们的家(黑框)和食物(黄框)之间移动。这些三色盒子是 Ant 。我为绘制所示图形编写的代码如下: % background background() % making
GWT Java 仿真
我有一些使用 java.awt.Color 的代码。我想将我的 Java 代码转换为 GWT。所以我将在我的 GWT 项目中模拟 java.awt.Color。一种方法是编写一个名为源路径为awt的
c - 更深入的功能分析/仿真
大家好圣诞节快乐我需要一个建议我有以下代码: int main() { int k=5000000; int p; int sum=0; for (p=0;p<
matlab - 是否可以在满足特定条件时停止 Simulink 仿真？
假设您有一个 Simulink 仿真，其中某个信号首先为正，然后在给定时间间隔内经过一段时间 t 后变为负。您的目标是找到零交叉点。第一种方法是在给定的间隔内绘制信号，保存它并计算过零。当针对不同
emulation - 6502 CPU 仿真
现在是周末，所以我通过编写一个爱好项目来放松整周的编程。昨天写了一个MOS 6502 CPU仿真器的框架，寄存器、堆栈、内存和所有操作码都实现了。 (来源链接如下) 我可以在我编写的调试器中手动运行
android - 无法使用硬件键盘创建 Android 仿真
出于测试目的，我需要创建如下所示的 AVD: 但是我所有的模拟设备都是这样的: 它们只包含屏幕，没有硬件键盘。这是“新设备”对话框: “存在硬件键盘”没有任何效果。如何获得所需的设备配置？ Andro
ie6 和其他中的 css3 仿真
有没有什么地方有一个独门绝技的小马，它可以使 css3 的所有优点(阴影、发光、圆 Angular )并使其与 ie6 兼容/看起来相似... i have try that ...哦，天哪，这太丑了
"super"关键字的 c++ 仿真
在用 c++ 实现“super”之前，我正在寻找一种自己模拟它的方法。动机:这是一个典型的场景: class A { void SomeMethod(); } class B : public
linux - QEMU msi 仿真
我正在研究一个模拟 QEMU 设备来模拟 FPGA PCIe 接口(interface)。我使用 lev-pci 设备作为基本模板: https://github.com/levex/kernel-q
windows - HID 软件设备(仿真)
您知道为 Windows 和/或 Linux 制作软件(虚拟)HID 设备的方法吗？我想将一些传感器用作 HID，但它们没有任何 HID，所以我想我可以在 PC(模拟 onde)上安装自己的 HID
php函数参数错误抑制，empty() isset() 仿真
我很确定这个问题的答案是否定的，但万一有一些 PHP 大师是否有可能以可以传入无效参数或不存在的变量的方式编写函数，并且 php 在不使用 '@' 的情况下不会出错很像 empty 和 isset
c# - 未插入实际设备的 Kinect 仿真
当 Kinect 本身未插入时，是否可以模拟 Kinect 传感器(用于与 Kinect SDK 一起使用)？起初我认为 Kinect Studio 完全符合我的要求，但现在看来 Kinect St
html - 框架集的纯 CSS 仿真
我已经搜索了 1 个多小时没有成功。是否有模拟框架集的纯 CSS 方式？我的意思是，真的在模仿它。我发现了一些有趣的东西，您将在其中固定顶部和底部 block ，但内容的滚动条是常规的浏览器主体滚动条
linux - 虚拟 GPIO 仿真
是否存在用于编程需求的虚拟 GPIO 驱动程序？我必须在我的 Linux PC 上开发一个软件，然后在一些带有物理 GPIO 的嵌入式系统(C.H.I.P.、OpenWRT 等等......)上试用
android - 如何加速 Android 仿真？
我正在尝试开始 Android 开发。我在 Linux 上使用 eclipse 并使用 Pentium IV @3.2Gh 和 1GB 内存。我刚刚遵循“hello android”howto，只有
google-chrome - 从命令行启动 Chrome 仿真
我使用 Google Chrome 和 Intern 运行自动化测试，我想知道是否有办法从 CLI 以仿真模式启动 Chrome 或使用特定标志来测试移动渲染。如果没有，您知道一个好的解决方法吗？我
c - 通过闪存进行 STM32F1 EEPROM 仿真
我正在尝试通过 STM32F1 上的闪存模拟 EEPROM，如 here 所述(对于STM32F4)例如，但我正在努力更改STM32F1RB(中密度)规范的代码。我正在使用 SW4STM32、Cube
c++ - AVR XMEGA USART 仿真
使用下面的测试代码，我尝试使用中的 simulator 通过 xmega128a3u 的 USART 发送数据Atmel Studio. 观察 I/O 查看数据寄存器从未设置，即使我正在设置它。是我

首页

博学

6Ren·AI

商城

FPU与软件仿真的性能对比