real-time - 8086 和 DSP 微处理器上的点积-6ren

real-time - 8086 和 DSP 微处理器上的点积

转载作者：行者123 更新时间：2023-12-02 03:08:32

24

4

我的老师每年都会在期末考试时给我们出一道题，但似乎没有人给他预期的结果。我个人不知道如何解决它。问题来了

让我们考虑一个常量数组A[a0 a1 a2 a3 a4 a5 a6 a7]，其中每个元素都是16位自然数，并且是实时获取的元素数组UU=[u0 u1 u2 u3 u4 u5 u6 u7] 其中每个元素左对齐并以 12 位表示。两个向量的点积为 Y=A*U^ 其中 ^ 是转置运算符。

a) 考虑连续地址上所有可用的数值，编写计算点积 Y 的指令序列。考虑每条指令的执行时间，如循环机，评估 Y 的执行时间。最终结果将存储在通用寄存器中。

b) 解释 DSP 微处理器的硬件模块的组件，这些组件可以缩短 Y 的执行时间。

从修正的范围我可以发现:

一)

系数列表和循环缓冲区的内存管理用于采样)1p
寻址指针的管理 0.5p
乘法和加法运算(大小操作数和维度结果)1p循环执行得到结果0.5p。

b)

内存的不同管理，并行的硬件管理指针1p
乘法和加法 0.5 p 类型的指令
并行执行的多指令 0.5 p
零开销 1p 类型的指令循环
来自定时器的中断请求，用于生成采样周期 1p
当前 sample 1p的采购
中断子程序的评估。 0.5便士
采样周期与执行时间的关系中断例程。 0.5便士

对于第一个任务，我有一些想法。他给了我们一个提示，告诉我们即使 U 值是 12 位，8086 处理器也会获取 16 位，而这似乎是所有其他学生都没有做到的事情似乎没有观察到。对于第二项我不知道。

最佳答案

一些一般准则:

避免使用段覆盖前缀来寻址数据。在 8086 上，这样的前缀会导致 2 个时钟损失。
确保数据字对齐。当在奇数地址上寻址一个字时，8086 有 4 个时钟的惩罚。
不要对 CL 寄存器中的计数使用移位/循环。一系列单次轮类/轮换要快得多。
即使最终结果需要存储在内存中，也不要在计算中重复使用该内存。使用临时寄存器并仅在最后传输结果。

这是点积计算的一个版本:

    xor  bx, bx                ;3
    xor  cx, cx                ;3
    mov  si, 14                ;4
Again:
    mov  ax, [U + si]          ;8 + EA (=9)
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    mul  word ptr [A + si]     ;124-139 + EA (=9)
    add  bx, ax                ;3
    adc  cx, dx                ;3
    sub  si, 2                 ;4
    jnb  Again                 ;16 if taken, 4 if not taken
    mov  ax, bx                ;2
    mov  dx, cx                ;2

由于 U 数组“每个元素左对齐并以 12 位表示”，因此一系列移位对值进行标准化。
通过从两个数组的末尾开始迭代，可以避免循环控制上的 cmp。
将结果移至 DX:AX 似乎更自然。如果不需要则删除。

由于 mul 的执行时间不同，因此需要考虑两种情况:

最佳情况执行时间为:10 + (168 + 16) * 7 + (168 + 4) + 4 = 1474 个时钟
最坏情况执行时间为:10 + (183 + 16) * 7 + (183 + 4) + 4 = 1594 个时钟

<小时/>

部分展开将显示 5% 的速度提升，但代价是代码不太紧凑(从 36 字节到 56 字节)。

    xor  bx, bx                ;3
    xor  cx, cx                ;3
    mov  si, 10                ;4
Again:
    mov  ax, [U + si + 2]      ;8 + EA (=9)
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    mul  word ptr [A + si + 2] ;124-139 + EA (=9)
    add  bx, ax                ;3
    adc  cx, dx                ;3
    mov  ax, [U + si]          ;8 + EA (=9)
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    shr  ax, 1                 ;2
    mul  word ptr [A + si]     ;124-139 + EA (=9)
    add  bx, ax                ;3
    adc  cx, dx                ;3
    sub  si, 4                 ;4
    jnb  Again                 ;16 if taken, 4 if not taken
    mov  ax, bx                ;2
    mov  dx, cx                ;2

最佳情况执行时间为:10 + (332 + 16) * 3 + (332 + 4) + 4 = 1394 个时钟
最坏情况执行时间为:10 + (362 + 16) * 3 + (362 + 4) + 4 = 1514 个时钟

关于real-time - 8086 和 DSP 微处理器上的点积，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38004655/

24

4

0

文章推荐： ios - 在 macOS 中创建 C 定时器

文章推荐： java - Android 应用程序启动后崩溃，没有任何错误

文章推荐： java - Vaadin - 无法将组件居中 - 设计问题

文章推荐： java - 使用 JAX-RS 和 MOXy 处理无效枚举

python 时间结果不符合预期 : time. time() - time.time()
在尝试 time 的 python 执行时，我发现在一条语句中两次调用 time.time() 时出现奇怪的行为。在语句执行期间获取time.time() 有一个非常小的处理延迟。例如time.ti
c# - 无限循环 : while(Time. time < Time.time + 5f)
我要疯了。对于我的生活，我无法弄清楚为什么以下代码会导致 Unity 在我按下播放键后立即卡住。这是一个空的项目，脚本附加到一个空的游戏对象。在控制台中，什么也没有出现，甚至没有出现初始的 Debug
c# - 无限循环 : while(Time. time < Time.time + 5f)
我要疯了。对于我的生活，我无法弄清楚为什么以下代码会导致 Unity 在我按下播放键后立即卡住。这是一个空的项目，脚本附加到一个空的游戏对象。在控制台中，什么也没有出现，甚至没有出现初始的 Debug
string - 为什么打印 time.Time 和指向 time.Time 的指针具有相同的结果？
我不明白为什么下面的结果是一样的。我预计第一个结果是指针地址。 func print(t *time.Time) { fmt.Println(t) // 2009-11-10 23:00:00
python - 为什么 time.time() - time.time() = 0.0？
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AMD64)] on win32 Type "help
time - 获取 time.Time 月份的最后一天
当我有一个time.Time时: // January, 29th t, _ := time.Parse("2006-01-02", "2016-01-29") 如何获得代表 1 月 31 日的 ti
sql - 从 "time with time zone"和时区名称中获取 "time without time zone"
首先，我意识到不推荐使用 time with time zone。我要使用它是因为我将多个 time with time zone 值与我当前的系统时间进行比较，而不管是哪一天。 IE。用户说每天 0
time - std::time::Duration 是否与 "time" crate 中的 time::precise_time_ns 一样精确？
长期以来，在 Rust 中精确测量时间的标准方法是 time crate 及其 time::precise_time_ns功能。但是，time crate 现在已被弃用，std 库有 std::tim
time - $time 在科学集群上使用并行处理时的含义？
我正在我学校的一个科学集群上运行我的有限差分程序。该程序使用 openmpi 来并行化代码。当程序连续运行时，我得到: real 78m40.592s user 78m34.920s s
python - 理解 time.clock() 和 time.time()
尽管它们已被弃用并且有比 time 更好的模块(即 timeit)，但我想知道这两个函数 time 之间的区别.clock() 和 time.time()。从后者 (time.time()) 开始，
python - time.time 和 time.clock 有什么区别？
这个问题在这里已经有了答案: Python's time.clock() vs. time.time() accuracy? (16 个答案) 关闭 6 年前。我认为两者都衡量时间量？但是他们返回
Python:time.time() 与 time.clock() 之间有显着差异吗？
我正在尝试测试 http 请求处理代码块在我的 Flask Controller 中需要多长时间，这是我使用的示例代码: cancelled = [] t0 = time.time() t1 = ti
python time.time() 和 "Daylight Saving Time"
运行 python 的计算机时钟(Windows 或 Linux)时会发生什么自动更改并调用 time.time()? 我读到，当时钟手动更改为过去的某个值时，time.time() 的值会变小。最
time - 准时测零最简洁的方法.Time
我有一个结构可能无法在其字段之一上设置 time.Time 值。测试无效性时，我不能使用 nil 或 0。time.Unix(0,0) 也不相同。我想到了这个: var emptyTime time.
time - 可空时间.Time
我有一个打算用数据库记录填充的结构，其中一个日期时间列可以为空: type Reminder struct { Id int CreatedAt time.Time
java - Execute CommandA A% of time, CommandB B% of time, CommandA C% of time ----- Command Z% time 使用随机数
问题陈述:通过匹配其百分比随机执行各种命令。比如执行 CommandA 50% 的时间和 commandB 25% 的时间和 commandC 15% 的时间等等，总百分比应该是 100%。我的问题
php - [路由 : time. 更新] [URI: time/{time}] 缺少必需的参数
我正在使用 laravel 6。我在同一个应用程序中有类似的 Controller 和类似的 View ，它工作正常。对比之后还是找不到错误。 Facade\Ignition\Exceptions\V
Python:从 time.time() 值转换为 time.strftime() 值的最简单方法是什么？
我需要用 ("%m/%d/%Y %H:%M:%S") 格式表示时间，我得到的浮点值是 time.time(). 我已经有了一个 time.time() 形式的值。例如，我已经有一个值，我每 0.3 秒
python - 将 datetime.time() 转换为与 time.time() 相同的格式
我正在使用以下方法获取 utc 日期时间: import datetime import time from pytz import timezone now_utc = datetime.datet
python - 为什么 time.clock 给出的耗时比 time.time 长？
我在 Ubuntu 上使用 time.clock 和 time.time 为一段 python 代码计时: clock elapsed time: 8.770 s time elapsed time

首页

博学

6Ren·AI

商城

real-time - 8086 和 DSP 微处理器上的点积