assembly - 6502汇编语言中结构数组相对于并行数组的优势？-6ren

assembly - 6502汇编语言中结构数组相对于并行数组的优势？

转载作者：行者123 更新时间：2023-12-01 13:31:47

25

4

我当时写了很多 6502 的理解是，并行数组比存储数据的结构更好。

想象一下，你想要一个怪物统计表，在 C 中将被定义为这样的

struct Monster {
  unsigned char hitPoints;
  unsigned char damage;
  unsigned char shieldLevel;
  char* name;
};

您可以将其存储为结构数组

static Monster s_monsters[] = {
  { 5,   1, 0, "orc", },
  { 50, 10, 5, "dragon", },
  { 10,  3, 1, "goblin", },
};

或者您可以将其存储为并行数组(通常使用宏或工具生成)。注意:我用 C 显示代码，但请想象它是 6502 程序集。

unsigned char Monster_hitPoints[] = { 5, 50, 10, };
unsigned char Monster_damage[] = { 1, 10, 3, },
unsigned char Monster_sheildLevel[] = { 0, 5, 1, };
unsigned char Monster_nameLow[] = { 
   &m_orc_name & 0xFF, 
   &m_dragon_name & 0xFF,
   &m_goblin_name & 0xFF, 
};
unsigned char Monster_nameHigh[] = { 
   &m_orc_name >> 8 , 
   &m_dragon_name >> 8,
   &m_goblin_name >> 8, 
};

在 6502 中，给定一个 itemNdx，您可以像这样访问具有并行数组的所有字段

ldx itemNdx
lda Monster_hitPoints,x   ; access hitpoints
...
lda Monster_damage,x      ; access damage
...
lda Monster_shieldLevel,x ; access shieldLevel
...
lda Monster_nameLow,x     ; access name
sta pageZeroStringPointer
lda Monster_nameHigh,x
sta pageZeroStringPointer + 1
ldy #0
lda (pageZeroStringPointer),y

如果您使用结构而不是并行数组，它就会变成

lda itemNdx
clc          ; have to compute offset
asl a        ; a = itemNdx * 2   
asl a        ; a = itemNdx * 4
adc itemNdx  ; a = itemNdx * 5
tax          ; x = itemNdx * 5 

lda s_monsters+Monster.hitPoints,x   ; access hitpoints
...
lda s_monsters+Monster.damage,x      ; access damage
...
lda s_monsters+Monster.shieldLevel,x ; access shieldLevel
...
lda s_monsters+Monster.name,x        ; access name
sta pageZeroStringPointer
lda s_monsters+Monster.name+1,x
sta pageZeroStringPointer + 1
ldy #0
lda (pageZeroStringPointer),y        ; a is now first char of name

结构版本必须计算每个结构的偏移量。在上面的情况下，与并行阵列版本相比，还有 5 条指令。最重要的是，计算偏移量的数学是手工编码的，这意味着如果结构发生变化，则必须随时重新编写大小。最重要的是，您只能拥有一张 256 / sizeof(Monster) 的表格。大的。如果您有更多的字段(20 到 30 并不少见)，这意味着您的表只能有 8 到 12 个条目，而对于并行数组，您可以有 256 个条目。如果您想遍历表，还有一个优势。使用并行数组，您只需增加 x inx ，一个指令。对于结构，你必须添加 sizeof(monster) ，它添加只适用于 a 将是

 txa
 clc
 adc #sizeof(Monster)
 tax

这比并行数组版本多 3 条指令。

似乎并行数组是 6502 汇编语言的客观胜利，但是 John Carmack 来自 his plan file 的这个晦涩难懂的评论。

... actually, all the way back to understanding the virtues of structures over parallel arrays in apple II assembly language.. ...

有谁知道这些优点是什么？

我能想到的唯一优点是用结构数组分配动态数组更容易，但大多数游戏在 6502 天内没有分配任何东西。他们硬编码修复了大小的内存数组，因此似乎不可能。 6502 也没有缓存，所以没有缓存优势。

如果您在指针上满了，但指针上满是 ，您也可以处理超过 256 个项目。多较慢且需要多代码比上面显示的任何一种方法都多，因此它们通常是最后的选择。

; setup pointer
lda itemNdx
ldx #sizeof(Monster)
jsr multiplyAX       ; 8->16 bit multiply is around 70 cycles result in A(low), X(high)
clc
adc #s_monster && 0xFF
sta POINTER
txa
adc #s_monster >> 8
sta POINTER + 1

ldy #Monster.hitPoints   ; access hitpoints
lda (POINTER),y   
...
ldy #Monster.damage      ; access damage
lda (POINTER),y 
...
ldy #Monster.shieldLevel ; access shieldLevel
lda (POINTER),y 
...
ldy #Monster.name       ; access name
lda (POINTER),y
sta pageZeroStringPointer
ldy #Monster.name+1    
lda (POINTER),y
sta pageZeroStringPointer + 1
ldy #0
lda (pageZeroStringPointer),y        ; a is now first char of name

您可以通过创建指向每个项目的指针的并行数组来摆脱乘法。您仍然有 2 行并行数组不需要的设置，并且您仍然会使其余代码变慢和变大。每次访问 8 个周期 vs 5 个，每次访问 5 个字节 vs 3 个。

基本上，您只会在绝对必要时使用指针。如果您可以选择并行阵列，那么您似乎应该始终选择它们。

最佳答案

并行数组在使用绝对寻址的一组固定参数内工作得非常快。但是，当您超出此范围并必须使用零页索引时，表格就会翻转。

;  Assuming MONSTER_PTR is zp, set to the start of the current structure
ldy  #Monster.hitPoints
lda  (MONSTER_PTR),y
...
ldy  #Monster.damage
lda  (MONSTER_PTR),y

对于超过单页限制的并行数组，必须为每个数组重置一个指针。此外，一旦指针起作用，长索引计算就可以用预先计算的指针的简单移动或到索引指针表的单次移动来代替。

鉴于优势(至少在他使用的灵活性方面)，动态分配项目的能力是免费赠品。他在写作中并不清楚，但这似乎就是他的意思。

关于assembly - 6502汇编语言中结构数组相对于并行数组的优势？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45667636/

25

4

0

文章推荐：在 Flowable 中使用方法引用时，Kotlin 无法推断类型

文章推荐： scala - 在 Spark Streaming 中重用 kafka producer

文章推荐： asana - 如何从我的工作区中删除 asana 中的用户？

文章推荐： java - 有没有办法让 g.drawstring 显示随机字符串

R同时运行2个不同的代码块(并行)
有没有办法同时运行 2 个不同的代码块。我一直在研究 R 中的并行包，它们似乎都基于在循环中运行相同的函数。我正在寻找一种同时运行不同函数的方法(循环的 1 次迭代)。例如，我想在某个数据对象上创建一
C# 并行.For
无论如何增加 Parallel.For 启动后的循环次数？示例如下: var start = 0; var end = 5; Parallel.For(start, end, i => { C
Golang 并行
我是 Golang 的新手，正在尝试了解并发和并行。我阅读了下面提到的关于并发和并行的文章。我执行了相同的程序。但没有得到相同的(混合字母和字符)输出。首先获取所有字母，然后获取字符。似乎并发不工作，
R 同时循环遍历两个或多个向量 - 并行
我正在寻找同时迭代 R 中两个或多个字符向量/列表的方法，例如。有没有办法做这样的事情: foo <- c('a','c','d') bar <- c('aa','cc','dd') for(i in
Raku 并行/函数方法
我对 Raku 很陌生，我对函数式方法有疑问，尤其是 reduce。我最初有这样的方法: sub standardab{ my $mittel = mittel(@_); my $foo =
multithreading - 并行/多处理器音频处理资源
我最近花了很多时间来学习实时音频处理的细节，我发现的大多数库/工具都是c / c++代码或脚本/图形语言的形式，并在其中编译了c / c++代码。引擎盖。使用基于回调的API，与GUI或App中的其
Jmeter for循环http请求-并行
我正在使用 JMeter 进行图像负载测试。我有一个图像名称数组并遍历该数组，我通过 HTTP 请求获取所有图像。 -> loop_over_image - for loop controller
python 并行 Popen
我整个晚上都在困惑这个问题...... makeflags = ['--prefix=/usr','--libdir=/usr/lib'] rootdir='/tmp/project' ps = se
c# - 并行 C#
我正在尝试提高计算图像平均值的方法的性能。为此，我使用了两个 For 语句来迭代所有图像，因此我尝试使用一个 Parallel For 来改进它，但结果并不相同。我做错了吗？或者是什么导致了差异？
c++ - 并行 for 循环体的最佳大小
假设您有一个并行 for 循环实现，例如ConcRT parallel_for，将所有工作放在一个 for 循环体内总是最好的吗？举个例子: for(size_t i = 0; i < size()
C#并行，如何设置线程数
我想并行运行一部分代码。目前我正在使用 Parallel.For 如何让10、20或40个线程同时运行我当前的代码是: Parallel.For(1, total, (ii) =>
Paypal自适应支付(并行)550001错误
我使用 PAY API 进行了 PayPal 自适应并行支付，其中无论用户(买家)购买什么，都假设用户购买了总计 100 美元的商品。在我的自适应并行支付中，有 2 个接收方:Receiver1 和
algorithm - 并行/集群中图形节点分组的有效算法
我正在考虑让玩家加入游戏的高效算法。由于会有大量玩家，因此算法应该是异步的(即可扩展到集群中任意数量的机器)。有细节:想象有一个无向图(每个节点都是一个玩家)。玩家之间的每条边意味着玩家可以参加同一场
Java 并行 volatile i++
我有一个全局变量 volatile i = 0; 和两个线程。每个都执行以下操作: i++; System.out.print(i); 我收到以下组合。 12、21 和 22。我理解为什么我没有得到
c++ - OpenMp 并行
我有以下称为 pgain 的方法，它调用我试图并行化的方法 dist: /***************************************************************
Ruby 并行/多线程编程来读取巨大的数据库
我有一个 ruby 脚本读取一个巨大的表(约 2000 万行)，进行一些处理并将其提供给 Solr 用于索引目的。这一直是我们流程中的一大瓶颈。我打算在这里加快速度，我想实现某种并行性。我对 Ru
Golang 和并发/并行
我正在研究 Golang 并遇到一个问题，我已经研究了几天，我似乎无法理解 go routines 的概念以及它们的使用方式。基本上我是在尝试生成数百万条随机记录。我有生成随机数据的函数，并将创建一
for-loop - 并行 For 循环
我希望 for 循环使用 go 例程并行。我尝试使用 channel ，但没有用。我的主要问题是，我想在继续之前等待所有迭代完成。这就是为什么在它不起作用之前简单地编写 go 的原因。我尝试使用 ch
haskell - 并行 IO 导致终端出现随机文本输出
我正在使用 import Control.Concurrent.ParallelIO.Global main = parallel_ (map processI [1..(sdNumber runPa
R:并行 makePSOCKcluster 挂起
我正在尝试通过 makePSOCKcluster 连接到另一台计算机: library(parallel) cl ... doTryCatch -> recvData -> makeSOCKm

首页

博学

6Ren·AI

商城

assembly - 6502汇编语言中结构数组相对于并行数组的优势？