assembly - 如何在没有计时器的情况下将 ARM Cortex M0+ 延迟 n 个周期？-6ren

assembly - 如何在没有计时器的情况下将 ARM Cortex M0+ 延迟 n 个周期？

转载作者：行者123 更新时间：2023-12-04 17:09:17

25

4

我想将 ARM Cortex M0+ 延迟 n 个周期，而不使用计时器，代码大小尽可能小。 (我认为这要求使用汇编。)

0 个周期的延迟很简单，没有代码。
1 个周期的延迟是一个 NOP。
2 个周期的延迟是两个 NOP。

在什么时候开始循环(代码大小)有效？

最紧密的循环需要多少个循环？什么是设置时间？

发表回答说明:

以下C代码:

register unsigned char counter = 100;
while (counter-- > 0) {
  asm("");
}

当用 gcc 和 -O3 编译时给出:

    mov r3, #100
.L5:
    sub r3, r3, #1
    uxtb    r3, r3
    cmp r3, #0
    bne .L5

这要么说明手动编码 ARM 程序集仍然有目的，或者(更有可能)上面的 C 代码不是将我想要做的事情传达给编译器的最佳方式。

注释？

最佳答案

代码将取决于 n 到底是什么，以及它是否需要动态可变，但给定 the M0+ core's instruction timings ，为特定例程建立界限非常简单。

对于具有固定 8 位立即计数器的最小可能(6 字节)完整循环:

   movs  r0, #NUM    ;1 cycle
1: subs  r0, r0, #1  ;1 cycle
   bne   1b          ;2 if taken, 1 otherwise

与 NUM=1我们得到最少 3 个循环，每个额外循环加上 3 个循环，直到 NUM=255在 765 个周期(当然，您可以从 NUM=0 进行 2^32 次迭代，但这似乎有点傻)。这使得循环的下限在大约 6 个周期时是实用的。使用固定循环很容易在其中填充 NOP(甚至嵌套循环)以延长每次迭代，并在之前/之后与循环长度的非倍数对齐。如果您可以在需要开始等待之前在寄存器中安排多次迭代准备就绪，那么您可能会丢失初始 mov并且几乎是 3 个或更多周期的任何倍数，减去 1。如果您需要可变延迟的单周期分辨率，则初始设置成本会稍微高一些以纠正剩余部分(我会为此做一个计算分支到 NOP 雪橇)

我假设如果您处于周期关键时间点，您已经中断了(否则在某处为 CPSID 投入另一个周期)，并且您没有任何总线等待状态添加额外取指令的周期。

至于尝试在 C 中做到这一点:事实上，你必须在一个空的 asm 中进行黑客攻击。防止“无用”循环被优化掉是一个提示。抽象的 C 机器没有“指令”或“循环”的概念，因此根本无法在语言中可靠地表达这一点。试图依赖特定的 C 结构来编译为合适的指令是非常脆弱的——更改编译器标志；升级编译器；更改一些影响寄存器分配的远程代码，从而影响指令选择；等等 - 几乎任何事情都可能意外地改变生成的代码，所以我想说手工编码的汇编是循环准确代码的唯一明智的方法。

关于assembly - 如何在没有计时器的情况下将 ARM Cortex M0+ 延迟 n 个周期？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27510198/

25

4

0

文章推荐： phpstorm - 如何用PhpStorm 8打开大文件？

文章推荐： ibm-cloud - 无法将我的本地应用程序推送到 bluemix

文章推荐： xsd - 在 xsd 模式中定义元素列表

文章推荐： pdfsharp - HTML 到 PDF 导致横向

c - 检测正弦波的频率/周期
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
Android HTTPRequest 周期
我正在尝试将 JSON 发送到我的服务器并作为结果检索 JSON。例如发送用户名和密码并取回 token 和其他内容。这就是我正在为发送的 HTTP 请求所做的。我现在如何检索同一请求中的内容？
r - 如何从随机时间观察中生成规则的 xts 周期？
我有以下 xts 矩阵: > options(digits.secs = 6) > set.seed(1234) > xts(1:10, as.POSIXlt(1366039619, tz="EST"
ios - sleep 周期 - 这是哪种后台模式？
我目前正在开发一个应用程序，当用户到达某个位置时，它会提醒用户。我希望这个应用程序也在后台运行并搜索解决方案。在 AppStore 中，我发现了一款名为“Sleep Cycle”的应用程序，它可
javascript - Angular watch 周期
我想创建一个基于 farbtastic color picker 的颜色选择器。我想要实现的是添加我想要链接到色轮的 RGB slider 。这是我到目前为止所拥有的。 app.controller(
icalendar - 周期 RDATE 是什么意思？
RFC 5545 允许 RDATE 属性具有 PERIOD 数据类型。该数据类型的语义是什么？据我所知，这是未指定的。它会改变事件的持续时间吗？如果时区更改且没有持续时间怎么办？最佳答案尽管我
c# - 在排序列表中搜索值时如何节省 CPU 周期？
在 CodinGame学习平台，C# 教程中用作示例的问题之一是: The aim of this exercise is to check the presence of a number in a
performance - 每条汇编指令需要多少个 CPU 周期？
我听说网上有一本英特尔书，它描述了特定汇编指令所需的 CPU 周期，但我找不到(经过努力)。谁能告诉我如何找到CPU周期？这是一个例子，在下面的代码中，mov/lock 是 1 个 CPU 周期，x
java - 次要和主要 GC 周期
据我所知，Java GC有次要GC(低成本)和主要GC周期(高成本)。如果对象在本地范围内，则会在 Minor GC 中清理它。如果对象的引用存储在代码中的其他位置，则它会在主 GC 中被清除。例如
c++ - 忙等待自旋锁所花费的 CPU 周期
到目前为止，我有一个很好的自旋锁，可以用作 intendend: std::atomic_flag barrier = ATOMIC_FLAG_INIT; inline void lo
html - 周期 2 上一个和下一个
晚上好，我将 cycle2 与 prev 和 next 函数一起使用，但我无法将 prev 和 next 函数置于图像下方的中心。我环顾四周，我知道这会很愚蠢，但我就是看不到它。非常令人沮丧。谢谢加里
c++ - 执行我的简单函数需要多少 CPU 周期？
出于教育目的，我想知道在优化(在不同级别)和编译之后执行函数需要多少 CPU 周期。有没有办法分析代码或可执行文件以获得可重现的答案？我在 64 位 Windows 7 Pro 上使用 Eclipse
c++ - 如何测量读取/周期或指令/周期？
我想彻底测量和调整我的 C/C++ 代码，以便在 x86_64 系统上更好地使用缓存。我知道如何使用计数器(我的 Windows 机器上的 QueryPerformanceCounter)来测量时间，
python - 重新采样/时间分组到特定的时间跨度/周期
我尝试将一些数据分组到每四周一次的存储桶中，并使用 pd.Grouper(key='created_at', freq='4W')。我希望这些组是这样的，如果我有从 2019-08-26 到 2019
Java Math.random 周期
我正在做一个关于随机数的大型学校项目，但我找不到 Math.random() 的句点。我安装了 7.0.800.15 版本，并且正在使用 Windows 10 计算机。我试过用一个简单的程序来确定周期
java - 年老代需要多满才能触发主 GC 周期？
我正在努力解决我们生产环境中垃圾收集利用率高的问题，我想知道设置一个大的堆大小来保证老年代永远不会被填满是否会阻止触发主要的 GC 周期。为了实现这一点，我想有一个特定的阈值标记会触发主要的 GC
python - 一次加法需要多少 CPU 周期？
我想测量在 Python 3 中执行加法运算所需的时钟周期数。我写了一个程序来计算加法运算的平均值: from timeit import timeit def test(n): for i
c# - 测量函数调用的 CPU 周期
我正在寻找一种方法来测量线程上的函数调用所花费的 cpu 周期。示例伪代码: void HostFunction() { var startTick = CurrentThread.Cur
c - malloc CPU 周期
就 CPU 周期而言，malloc() 的成本是多少？(Vista/OS，最新版本的 gcc，最高优化级别，...) 基本上，我正在实现一个复杂的 DAG 结构(类似于链表)由一些 16B(不太常见)
c++ - 类型转换是否会消耗额外的 CPU 周期
C/C++ 中的类型转换会导致额外的 CPU 周期吗？我的理解是，至少在某些情况下应该消耗额外的 CPU 周期。就像从浮点类型转换为整数一样，CPU 需要将浮点结构转换为整数。 float a=2.

首页

博学

6Ren·AI

商城

assembly - 如何在没有计时器的情况下将 ARM Cortex M0+ 延迟 n 个周期？