大周期的 C 函数速度优化-6ren

大周期的 C 函数速度优化

转载作者：行者123 更新时间：2023-11-30 17:14:50

24

4

我正在玩pedagogical implementation A5/1，但我的一些功能性能很糟糕:

#define R1MASK      0x07FFFF
#define R1TAPS      0x072000

bit parity(word x) { // XOR all bits
  x ^= x>>16;
  x ^= x>>8;
  x ^= x>>4;
  x ^= x>>2;
  x ^= x>>1;
  return x&1;
}

word clockone(word reg, word mask, word taps) { // clock one register
  word t = reg & taps;
  reg = (reg << 1) & mask;
  reg |= parity(t);
  return reg;
}

bit frameR1bit(word frame, int t) // Compute value of hat{f}_t^reg for chosen frame, chosen register, chosen many times
{
  bit framebit;
  R3 = 0;
  for (int i = 0; i < 22; i++) {
    clockone(R3, R3MASK, R3TAPS); /* clock with frame */
    framebit = (frame >> i) & 1; /* The i-th bit of the frame  */
    R3 ^= framebit;
  }
  for (int i = 0; i < t; i++)
    clockone(R3, R3MASK, R3TAPS); /* clock */
  return (parity(R3)); // Compute hat{f}_t^reg
}

参数t在79到94之间，帧是数组中的228位，R3是字(R3寄存器的内容)，我可以预先计算的所有内容都已加载到内存中。问题是这些函数的计算量很大。我在很多周期中使用函数frameR1bit，因此计算了2^16 * 512 * 40 * 12次。整个程序真的很慢，我发现这是由于这个frameR1bit函数的循环造成的。有谁知道如何更好地实现这个功能？我真的很感谢任何形式的帮助。

最佳答案

尽管不太清楚，但移动 clockone 的内容和parity进入你的frameR1bit该循环中的函数将为您买回一些周期。就目前情况而言，它正在设置和拆除t parity 的堆栈帧和clockone 。这不会是最大的节省，但在机器级别，每次迭代将消除超过 16 条指令。

这可以通过使用 -finline-functions 来完成可以自动为您完成此操作，无需修改您的代码。

关于大周期的 C 函数速度优化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30166404/

24

4

0

文章推荐： c - 带有 %d 的 scanf 不会停止输入

文章推荐：类型转换指针？

文章推荐： c - 编写一个 C 程序来计算一个城市的平均季度降雨量？

文章推荐： c - 从 C 程序中通过管道将终端输出输出到文件

c - 检测正弦波的频率/周期
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
Android HTTPRequest 周期
我正在尝试将 JSON 发送到我的服务器并作为结果检索 JSON。例如发送用户名和密码并取回 token 和其他内容。这就是我正在为发送的 HTTP 请求所做的。我现在如何检索同一请求中的内容？
r - 如何从随机时间观察中生成规则的 xts 周期？
我有以下 xts 矩阵: > options(digits.secs = 6) > set.seed(1234) > xts(1:10, as.POSIXlt(1366039619, tz="EST"
ios - sleep 周期 - 这是哪种后台模式？
我目前正在开发一个应用程序，当用户到达某个位置时，它会提醒用户。我希望这个应用程序也在后台运行并搜索解决方案。在 AppStore 中，我发现了一款名为“Sleep Cycle”的应用程序，它可
javascript - Angular watch 周期
我想创建一个基于 farbtastic color picker 的颜色选择器。我想要实现的是添加我想要链接到色轮的 RGB slider 。这是我到目前为止所拥有的。 app.controller(
icalendar - 周期 RDATE 是什么意思？
RFC 5545 允许 RDATE 属性具有 PERIOD 数据类型。该数据类型的语义是什么？据我所知，这是未指定的。它会改变事件的持续时间吗？如果时区更改且没有持续时间怎么办？最佳答案尽管我
c# - 在排序列表中搜索值时如何节省 CPU 周期？
在 CodinGame学习平台，C# 教程中用作示例的问题之一是: The aim of this exercise is to check the presence of a number in a
performance - 每条汇编指令需要多少个 CPU 周期？
我听说网上有一本英特尔书，它描述了特定汇编指令所需的 CPU 周期，但我找不到(经过努力)。谁能告诉我如何找到CPU周期？这是一个例子，在下面的代码中，mov/lock 是 1 个 CPU 周期，x
java - 次要和主要 GC 周期
据我所知，Java GC有次要GC(低成本)和主要GC周期(高成本)。如果对象在本地范围内，则会在 Minor GC 中清理它。如果对象的引用存储在代码中的其他位置，则它会在主 GC 中被清除。例如
c++ - 忙等待自旋锁所花费的 CPU 周期
到目前为止，我有一个很好的自旋锁，可以用作 intendend: std::atomic_flag barrier = ATOMIC_FLAG_INIT; inline void lo
html - 周期 2 上一个和下一个
晚上好，我将 cycle2 与 prev 和 next 函数一起使用，但我无法将 prev 和 next 函数置于图像下方的中心。我环顾四周，我知道这会很愚蠢，但我就是看不到它。非常令人沮丧。谢谢加里
c++ - 执行我的简单函数需要多少 CPU 周期？
出于教育目的，我想知道在优化(在不同级别)和编译之后执行函数需要多少 CPU 周期。有没有办法分析代码或可执行文件以获得可重现的答案？我在 64 位 Windows 7 Pro 上使用 Eclipse
c++ - 如何测量读取/周期或指令/周期？
我想彻底测量和调整我的 C/C++ 代码，以便在 x86_64 系统上更好地使用缓存。我知道如何使用计数器(我的 Windows 机器上的 QueryPerformanceCounter)来测量时间，
python - 重新采样/时间分组到特定的时间跨度/周期
我尝试将一些数据分组到每四周一次的存储桶中，并使用 pd.Grouper(key='created_at', freq='4W')。我希望这些组是这样的，如果我有从 2019-08-26 到 2019
Java Math.random 周期
我正在做一个关于随机数的大型学校项目，但我找不到 Math.random() 的句点。我安装了 7.0.800.15 版本，并且正在使用 Windows 10 计算机。我试过用一个简单的程序来确定周期
java - 年老代需要多满才能触发主 GC 周期？
我正在努力解决我们生产环境中垃圾收集利用率高的问题，我想知道设置一个大的堆大小来保证老年代永远不会被填满是否会阻止触发主要的 GC 周期。为了实现这一点，我想有一个特定的阈值标记会触发主要的 GC
python - 一次加法需要多少 CPU 周期？
我想测量在 Python 3 中执行加法运算所需的时钟周期数。我写了一个程序来计算加法运算的平均值: from timeit import timeit def test(n): for i
c# - 测量函数调用的 CPU 周期
我正在寻找一种方法来测量线程上的函数调用所花费的 cpu 周期。示例伪代码: void HostFunction() { var startTick = CurrentThread.Cur
c - malloc CPU 周期
就 CPU 周期而言，malloc() 的成本是多少？(Vista/OS，最新版本的 gcc，最高优化级别，...) 基本上，我正在实现一个复杂的 DAG 结构(类似于链表)由一些 16B(不太常见)
c++ - 类型转换是否会消耗额外的 CPU 周期
C/C++ 中的类型转换会导致额外的 CPU 周期吗？我的理解是，至少在某些情况下应该消耗额外的 CPU 周期。就像从浮点类型转换为整数一样，CPU 需要将浮点结构转换为整数。 float a=2.

首页

博学

6Ren·AI

商城

大周期的 C 函数速度优化