第三章 DSP指令系统与特点 第一节 数据寻址方式 第二节 程序存储器地址的生成方式 第三节 流水线 第四节 指令系统概述.

Slides:



Advertisements
Similar presentations
质数和合数 中心小学 顾禹 人教版小学五年级数学下册 一、激趣导入 提示:密码是一个三位 数,它既是一个偶数, 又是 5 的倍数;最高位是 9 的最大因数;中间一位 是最小的质数。你能打 开密码锁吗?
Advertisements

因数与倍数 2 、 5 的倍数的特征
3 的倍数特征 抢三十

3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
阻塞操作. 在 linux 里,一个等待队列由一个 wait_queue_head_t 类型的结构来描述 等待队列的初始化: static wait_queue_head_t testqueue; init_waitqueue_head(&testqueue);
2017年3月5日 单片机原理与应用 背景知识调查.
实验四 利用中规模芯片设计时序电路(二).
卷积 有限冲激响应(FIR)数字滤波器 无限冲激响应(IIR)数字滤波器 快速傅立叶变换(FFT) 第8章 数字信号处理典型算法程序设计
不确定度的传递与合成 间接测量结果不确定度的评估
逆向工程-汇编语言
第2章 汇编语言与汇编程序 ——8086/8088指令系统 mov ax,12h call display Jmp 1234h.
第5章 TMS320C54x汇编语言程序设计 内容提要 汇编语言程序设计是应用软件设计的基础,主要任务是利用汇编指令和伪指令编写源程序以完成指定的功能。 本章将结合例子介绍TMS320C54x汇编语言源程序设计的基本方法,涉及的内容包括: 汇编语言源程序的格式 常数、字符串、符号和表达式的规定.
第7章 汇编语言程序设计 7.1 程序流程控制 7.2 数据块传送 7.3 定点数的基本算术运算 7.4 长字运算和并行运算
强连通分量 无向图 1、任意两顶点连通称该图为连通图 2、否则将其中的极大连通子图称为连通分量 A D C B E 有向图
第6章 应用程序设计 内容提要 数字信号处理主要面向密集型的运算,包括乘法-累加、数字滤波和快速傅里叶变换等。’C54x具备了高速完成上述运算的能力,并具有体积小、功耗低、功能强、软硬件资源丰富等优点,现已在通信等许多领域得到了广泛应用。 本章结合数字信号处理和通信中最常见、最具有代表性的应用,介绍通用数字信号处理算法的DSP实现方法,主要包括:
第六章 S7-300/400指令系统 6.1 S7-300/400的数据类型 S7-300/400中数的表示方法
走进编程 程序的顺序结构(二).
7.1 机器指令 7.2 操作数类型和操作类型 7.3 寻址方式 7.4 指令格式举例 7.5 RISC 技术.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
‘C54x寻址方式 ‘C54x特殊寻址方式说明 ‘C54x指令集 ‘C54x特殊指令使用说明
第二章 Java语言基础.
逆向工程-汇编语言
CPU结构和功能.
版权所有,引用请注明出处 第六章、中央控制器 原著 谭志虎 主讲(改编) 蒋文斌.
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
第二章 80x86计算机组织 x86微处理器 2.2 基于微处理器的计算机系统构成 2.3 中央处理机 2.4 存储器
移相正弦信号发生器设计 采用直接数字综合器DDS发生器的设计 原理:图1是此电路模型图
C语言程序设计 主讲教师:陆幼利.
得技通电子 问题 1.0 、选择题:本大题共15个小题,每小题1分,共15分,在每小题给出的四个选项中,只有一项符合题目要求,把所选项前的字母填在括号内。
工业机器人技术基础及应用 主讲人:顾老师
第四章 MCS-51定时器/计数器 一、定时器结构 1.定时器结构框图
顺序表的删除.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
计算机组成原理 课程设计.
(Random Access Memory)
微机原理与接口技术 微机原理与接口技术 朱华贵 2015年11月13日.
工业机器人知识要点解析 (ABB机器人) 主讲人:王老师
第三章 MCS 51的硬件结构.
第二章 补充知识 2.1 总线和三态门 一、总线(BUS) 三总线结构 数据总线DB(Data Bus)
<编程达人入门课程> 本节内容 内存的使用 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群: ,
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
实验三 16位算术逻辑运算实验 不带进位控制的算术运算 置AR=1: 设置开关CN 1 不带进位 0 带进位运算;
本节内容 内存复制指令 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
第九节 赋值运算符和赋值表达式.
iSIGHT 基本培训 使用 Excel的栅栏问题
实验二 带进位控制8位算术逻辑运算实验 带进位控制8位算术逻辑运算: ① 带进位运算 ② 保存运算后产生进位
第3章 汇编语言指令系统 在DSP应用中,虽然可以使用C/C++高级语言编程,降低了对编程者的要求,但在一些实时性要求高的场合仍然需要采用汇编编程,以充分利用DSP丰富的硬件资源,发挥它的实时运算能力。 用汇编语言编程,要求编程者对DSP的低层有充分的了解,包括硬件结构、存储器空间模型和I/O口的组织等。同时又要求编程者对指令系统有深刻的了解。
单片机原理及应用 实践部分 主讲人:刘 强 四川工商学院单片机教学团队 单片机原理及应用 实践部分 主讲人:刘 强
College of Computer Science & Technology
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
微机原理与接口技术 ——8086微处理器 西安邮电大学 计算机学院 范琳.
2.2矩阵的代数运算.
3. 逻辑运算指令 A、简单逻辑操作指令 CLR A. (不影响CY、AC、 OV标志) CPL A
第二章:‘C5000 DSP硬件结构 在这一章中,我们介绍: TMS320C54XX硬件结构特点 ★
得技通电子 问题 三 判断题:.
第3章 汇编语言指令系统 在DSP应用中,虽然可以使用C/C++高级语言编程,降低了对编程者的要求,但在一些实时性要求高的场合仍然需要采用汇编编程,以充分利用DSP丰富的硬件资源,发挥它的实时运算能力。 用汇编语言编程,要求编程者对DSP的低层有充分的了解,包括硬件结构、存储器空间模型和I/O口的组织等。同时又要求编程者对指令系统有深刻的了解。
微机原理与接口技术 西安邮电大学计算机学院 宁晓菊.
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
循环程序设计 在程序中包含重复执行的程序段称为循环程序设计。循环程序可以使程序结构性强、可读性好,从而大大提高了程序质量。
认知1 掌握“与”、“或”和“异或”指令格式及应用
第三章 CPU子系统 西南石油大学计算机科学学院 主讲教师 杨 梅 联系电话:
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
§4.5 最大公因式的矩阵求法( Ⅱ ).
<编程达人入门课程> 本节内容 有符号数与无符号数 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ:
学习目标 1、什么是列类型 2、列类型之数值类型.
9.3多项式乘多项式.
Presentation transcript:

第三章 DSP指令系统与特点 第一节 数据寻址方式 第二节 程序存储器地址的生成方式 第三节 流水线 第四节 指令系统概述

第一节 TMS320C54x的数据寻址方式 Smem:16位单寻址操作数。 Xmem:16位双寻址操作数,从DB数据总线上读出。 Ymem:16位双寻址操作数,从CB数据总线上读出。 dmad:16位立即数,数据存储器地址。 pmad:16位立即数,程序存储器地址。 PA: 16位立即数,I/O口地址。 src: 源累加器(A或B)。 dst: 目的累加器(A或B)。 lk: 16位长立即数。

寻址分类 1.立即数寻址 2.绝对地址寻址 3.累加器寻址 4.直接寻址 5.间接寻址 6.存储器映象寄存器寻址 7.堆栈寻址

1.立即数寻址 指令中包含有执行指令所需要的操作数。 立即数分为3、5、8或9位的短立即数和16位的长立即数两种。 特 短立即数可包含在单字或双字指令中,长立即数在双字指令中。 特 点  在操作数前面需要加#字号来说明该操作数为立即数。否则会把该操作数误认为是一个地址,从而把立即数寻址变成绝对地址寻址。 注 意 LD #93h,A LD 93h,A 举例

2.绝对地址寻址 在指令中包含有所要寻址的存储单元的16位地址。这个16位的地址可以用其所在单元的地址标号或者16位符号常数来表示。 特 点 (1)数据存储器地址(damd)寻址 方法 MVKD SAMPLE,*AR3 用一个符号或一个数来确定数据空间的一个地址。 举例

用一个符号或一个具体的数来确定程序存储器中的一个地址 2.绝对地址寻址 (2)程序存储器地址(pmad)寻址 方法 MVPD TABLE,*AR4 用一个符号或一个具体的数来确定程序存储器中的一个地址 举例

用一个符号或一个常数来确定外部I/O口地址 2.绝对地址寻址 (3)PA寻址 端口(PA) 方法 举例 用一个符号或一个常数来确定外部I/O口地址 PORTR FIFO,*AR5

用一个符号或一个常数来确定数据存储器中的一个地址 允许所有使用Smem寻址的指令去访问数据空间的任意单元而不改变数据页指针(DP)的值,也不用对ARx进行初始化 2.绝对地址寻址 (4)*(lk)寻址 方法 举例 特点 用一个符号或一个常数来确定数据存储器中的一个地址 LD *(BUFFER),A

用累加器中的数值作为地址来读写程序存储器。 3.累加器寻址 方法 特点 举例 用累加器中的数值作为地址来读写程序存储器。 可用来完成程序存储器单元的数据与数据存储器单元的数据进行交换 READA Smem WRITA Smem

用一个符号或一个常数来确定7位偏移值,与DP或SP共同形成16位的数据存储器实际地址。 4.直接寻址 方法 特点 举例 用一个符号或一个常数来确定7位偏移值,与DP或SP共同形成16位的数据存储器实际地址。 LD #x,DP LD @u,A ADD @v,A =========== SSBX CPL LD @X1,A ADD @Y2,A 可以在不改变DP或SP的情况下,随机地寻址128个存储单元中的任何一个单元。

CPL=0 7位dma域与9bit的DP相结合 形成16位的数据存储器地址。 CPL=1 7位dma域加上(正偏移)SP     的值形成16位的数据存储器地址。 DP值是从0~511(29-1),以DP为基准的直接寻址把存储器分成512页,7位的dma范围从0~127,每页有128个可访问的单元。

5.间接寻址 方法 特点 能在一个指令中访问两个数据存储器单元 (AR0~AR7)→ ARAU0/ARAU1 → 16位无符号算术运算→ 寻址范围为64K 两个独立的存储器单元读数据 读一个、写另一个存储器单元 读写两个连续的存储器单元

5.间接寻址 (1)单操作数寻址 LD *AR1,B 单操作数间接寻址的硬件框图

单数据存储器操作数间接寻址类型 MOD域 操作码语法 功 能 说 明 0000 *ARx addr=ARx ARx包含了数据存储器地址 功 能 说 明 0000 *ARx addr=ARx ARx包含了数据存储器地址 0001 *ARx- ARx=ARx-1 访问后,ARx中的地址减1② 0010 *ARx+ ARx=ARx+1 访问后,ARx中的地址加1① 0011 *+ARx addr=ARx+1 在寻址前,ARx中的地址加1,然后再寻址①②③ 0100 *ARx-0B ARx=B(ARx-AR0) 访问后,从ARx中以位倒序进位的方式减去AR0 0101 *ARx-0 ARx=ARx-AR0 访问后,从ARx中减去AR0 0110 *ARx+0 ARx=ARx+AR0 访问后,把AR0加到ARx中去 0111 *ARx+0B ARx=B(ARx+AR0) 访问后,把AR0以位倒序进位的方式加到ARx中 1000 *ARx-% ARx=circ(ARx-1) 访问后,ARx中的地址以循环寻址的方式减1① 1001 *ARx-0% ARx=circ(ARx-AR0) 访问后,从ARx中以循环寻址的方式减去AR0 1010 *ARx+% ARx=circ(ARx+1) 访问后,ARx中的地址以循环寻址的方式加1① 1011 *ARx+0% ARx=circ(ARx+AR0) 访问后,把AR0以循环寻址的方式加到ARx中 1100 *ARx(lk) addr=ARx+lk ARx=ARx ARx和16位的长偏移(lk)的和用来作为数据存储器地址。ARx本身不被修改 1101 *+ARx(lk) ARx=ARx+lk 在寻址前,把一个带符号的16位的长偏移(lk)加到ARx中,然后用新的ARx的值作为数据存储器的地址③ 1110 *+ARx(lk)% addr=circ(ARx+lk) ARx=circ(ARx+lk) 在寻址前,把一个带符号的16位的长偏移以循环寻址的方式加到ARx中,然后再用新的ARx的值作为数据存储器的地址③ 1111 *(lk) addr=lk 一个无符号的16位的长偏移(lk)用来作为数据存储器的绝对地址。(也属绝对寻址)③

1) 循环寻址 循环缓冲区的长度值存放在循环缓冲区长度寄存器BK中,BK中的数值由指令设定。长度为R的循环缓冲器必须从一个N位地址的边界开始,即循环缓冲器基地址的最低N位必须为0。N是满足2N>R的最小整数。R的值必须装入BK。 例如,含有31个字的循环缓冲器必须从最低5位为0的地址开始,即xxxx xxxx xxx0 00002,N=5,2N=25>R=31,且31必须装入BK。如: STM #1k,BK 如果R=32,则最小的N值为6,循环缓冲区的起始地址必须有6个最低有效位为0,即×××× ×××× ××00 00002。

2) 位倒序寻址 在这种寻址方式中,用AR0存放FFT点数的一半整数N,用另一辅助寄存器指向一数据存放的物理单元。当使用位倒序寻址把AR0加到辅助寄存器中时,地址以位倒序的方式产生,即进位是从左向右,而不是从右向左进位。 例如:  0110 1000 + 0000 1000     0110 0100 以8位辅助寄存器为例,AR1表示了在存储器中数据的基地址(0110 0000)2,AR0的值为(0000 1000)2。利用以下两条语句可以向外设口(口地址为PA)输出整序后的FFT变换结果: RPT #15 重复执行下条指令15+1次 PORTW *AR1+0B,PA 向外设口PA输出整结果

位倒序对FFT变换结果的序号调整 AR1修改循环值 存储单 元地址 整序前FFT 变换结果 位倒序 AR1更新的地址值AR0=0000 10002 整序后PA输出的FFT变换结果 0000 X(0) 0110 0000 1 0001 X(8) 1000 0110 1000 X(1) 2 0010 X(4) 0100 0110 0100 X(2) 3 0011 X(12) 1100 0110 1100 X(3) 4 0110 0010 5 0101 X(10) 1010 0110 1010 X(5) 6 0110 X(6) 0110 0110 7 0111 X(14) 1110 0110 1110 X(7) 8 0110 0001 9 1001 X(9) 0110 1001 10 0110 0101 11 1011 X(13) 1101 0110 1101 X(11) 12 0110 0011 13 0110 1011 14 0110 0111 15 1111 X(15) 0110 1111

不影响当前DP或SP值 。用于直接寻址和间接寻址 6.存储器映象寄存器寻址 功能 方法 举例 特点 高9位数据存储器地址被置0,利用指令中的低7位地址访问MMR。 用来修改存储器映象寄存器 0页寻址。 不影响当前DP或SP值 。用于直接寻址和间接寻址 LDM PRD,A

用来在中断和子程序调用时自动保存程序计数器(PC)中的数值,也能用来保护现场或传送参数 7.堆栈寻址 PSHD *AR2 POPD *AR3 功能 特点 用来在中断和子程序调用时自动保存程序计数器(PC)中的数值,也能用来保护现场或传送参数 从高地址向低地址方向生长,SP)来管理堆栈,SP始终指向堆栈中所存放的最后一个数据,即SP指针始终指向栈顶。在压入操作时,先减小SP的值,再将数据压入堆栈;在弹出操作时,先从堆栈弹出数据,再增加SP的值。

第二节 程序存储器地址的生成 程序计数器(PC) 程序地址生成器(PAGEN)构成 重复计数器(RC) 块重复计数器(BRC) 第二节 程序存储器地址的生成 程序计数器(PC) 重复计数器(RC) 块重复计数器(BRC) 块重复起始地址寄存器(RSA) 块重复结束地址寄存器(REA) 程序地址生成器(PAGEN)构成 核心 地址内容为:  即将取指的某条指令;  某个16位立即操作数;  系数表。 在程序存储器中的地址 16位程序计数器(PC)内中保存某个内部或外部程序存储器的地址。

将程序存储器地址加载到程序计数器的途径 操作 加载到PC的地址 复位 PC=FF80h。 顺序执行指令 PC=PC+1。 分支转移 由累加器分支转移 用累加器A或B的低16位立即数加载PC。 块重复循环 假如ST1中的块重复有效位BRAF=1,当PC+1等于块重复结束地址(REA)+1,将块重复起始地址(RSA)加载PC。 子程序调用 将PC+2压入堆栈,并用紧跟在调用指令后面的16位立即数加载PC。返回指令将栈顶弹出至PC,回到原先的程序处继续执行。 从累加器调用子程序 将PC+1压入椎栈,用累加器A或B的低16位加载PC。返回指令将栈顶弹出至PC,回到原先的程序处继续执行。 硬件中断或软件中断 将PC压入堆栈,用适当的中断向量地址加载PC。中断返回时,将栈顶弹出至PC,继续执行被中断了的子程序。

1.分支转移操作 功能 方法 通过分支转移指令改写PC,可以改变程序的流向。而子程序调用指令则通过将一个返回地址压入堆栈,执行返回时恢复原地址。 可执行: 分支转移 循环控制 子程序操作

条件分支转移 无条件分支转移 转移种类 BC[D]如果指令中所规定的条件得到满足,就用指令中所给出的地址加载PC; BANZ[D]如果当前辅助寄存器不等于0,就用指令中所规定的地址加载PC。 B[D]用指令中所给出的地址加载PC BACC[D]用所指定的累加器的低16位作为地址加载PC。 条件分支转移 无条件分支转移 带延迟 不带延迟操作 B next BACC A BC new,AOV BANZ loop,*AR2-

2.调用和返回 CALL[d] lop RET main 无条件调用与返回 有条件调用与返回 带延迟 不带延迟 功能 方法 当采用调用指令进行子程序或函数调用时,DSP中断当前运行的程序,转移到程序存储器的其它地址继续运行。 转移前,原程序的下条指令的地址被压入堆栈,而在返回时则将这个地址弹出至PC,使被中断了的原程序能继续执行。

3.条件指令中的条件判断

多重条件判断 相与关系 BC pmad,cond[,cond[,cond]] BC pmad,cond 相或关系 第1组 第2组 A 类 EQ OV TC C BIO NEQ NOV NTC NC NBIO LT   LEQ GT GEQ

可以从A类中选一个条件,同时可以从B类中选择一个条件。但是不能从同一类中选择两个条件。 另外,两种条件测试的累加器必须是同一个。 第1组 可以同时测试AGT和AOV,但不能同时测试AGT和BGT。 例如

可以在A、B、C三类中各选择一个条件,但不能从同一类中选择两个条件 第2组 可以在A、B、C三类中各选择一个条件,但不能从同一类中选择两个条件 例如

如果条件分支转移出去的地方只有1~2字的程序段,则可以用一条单周期条件执行指令(XC)来代替分支转移指令: XC n,cond[,cond[,cond]] 当n=1,且条件得到满足,就执行紧随此     条件指令后的1个字指令。 当n=2,且条件得到满足,就执行紧随此     指令后的1个双字指令或者2条单     字指令。     当条件不满足,就依n的值执行1     条或2条NOP指令。 特 例

4.单条指令的重复操作 功能 重复执行下一条指令 特点1 特点2 一旦重复指令被取指、译码,直到重复循环完成以前,对所有的中断(包括 ,但不包括 )均不响应。 重复执行(RC)+1次。RC内容不能编程设置,只能由重复指令(RPT和RPTZ)中的操作数加载。操作数n的最大值为65 535,最大重复执行次数为65 535+1。

重复过程 当RPT指令执行时: ①首先把循环的次数装入循环计数器(RC), ②其循环次数n由一个16位单数据存储器操作数 Smem或一个8位或16位常数k或lk给定。这样, 紧接着的下一条指令会循环执行n+1次。 ③循环,RC在执行减1操作时不能被访问。 注意:该循环内不能套用循环。 当RPTZ指令执行时:对目的累加器dst清0, 循环执行下一条指令n+1次。

5.块重复操作 将重复操作的范围扩大到任意长度的循环回路 功能 利用C54x内部的块重复计数器(BRC,加载值可为0~65 535)、块重复起始地址寄存器(RSA)、块重复结束地址寄存器(REA)与程序块重复指令RPTB,可对紧随RPTB、由若干条指令构成的程序块进行重复操作。 特点 1.RPT指令一旦执行,不会停止操作,即使有中断请求也不响应; 2.RPTB指令可以响应中断; 注意

例3-6 对数据组x[5]中的每个元素加1。    .bss x,5   ;为数组x分配5个存储单元 begin: LD #1,16,B ;将1左移16位放入B的           ;高端字的最低位    STM #4,BRC ; 4→BRC,(PC)+2 →RSA    STM #x,AR4 ;将x的首地址赋给AR4    RPTB next-1 ;将NEXT-1 →REA    ADD *AR4,16,B,A ;x地址的内容左移16位加 ; B的高端字,结果放A    STH A,*AR4+ ;将A的高端字存入x单元, ;完成加1操作 next: LD #0,B ;对B清零    …      ;必需next-1作为结束地址

6.循环的嵌套 嵌套原则 参与嵌套循环的寄存器不能重复使用 对寄存器的占用 执行RPT指令时占用RPTC寄存器(重复计数器); 执行RPTB指令时要用到BRC、RSA和RSE寄存器。只有一套块重复寄存器,故块重复操作不能嵌套。 由于RPT与RPTB两者用了不同的寄存器,因此RPT指令可以嵌套在RPTB指令中,实现循环的嵌套。 执行BANZ指令只占用辅助寄存器ARx。不会与RPT RPTB指令相冲突。

图3-3 一个三重循环嵌套结构

第三节 流水线 在执行多条指令时,将每条指令的预取指、取指、译码、寻址、读取操作数、执行等阶段,相差一个阶段地重叠地执行。 流水线 操作 第三节 流水线 在执行多条指令时,将每条指令的预取指、取指、译码、寻址、读取操作数、执行等阶段,相差一个阶段地重叠地执行。 流水线 操作 流水线操作的优点 一条k段流水能在k+(n-1)个周期内处理n条指令。其前k个周期用于完成第一条指令,其余n-1条指令的执行需要n-1个周期。而非流水处理器上执行n条指令则需要nk 个周期。当指令条数n较大时,可认为每个周期内执行的最大指令个数为k。

流水线操作 在第一个机器周期用PC中的内容加载PAB 预取指P 取指F 译码D 寻址A 读取操作数R 执行X 在第二个机器周期用读取到的指令字加载PB。 第三个周期用PB的内容加载指令寄存器IR,对IR内的指令进行译码,产生执行指令所需要的一系列控制信号。

流水线操作 用数据1读地址加载DAB,或用数据2读地址加载CAB,修正辅助寄存器和堆栈指针。 预取指P 取指F 译码D 寻址A 读取操作数R 执行X 读数据1加载DB,或读数据2加载CB;用数据3写地址加载到EAB,以便在流水线的最后一级将数据送到数据存储空间。 执行指令,或用写数据加载EB。

1.延迟分支转移的流水线图 无延迟流水线分支转移的问题 空转浪费周期 例3-7 地址 指令 地址 指令 a1,a2  B b1 这是一个四周期、二字分支指令 a3  i3 这是任意的一周期、一字指令 a4   i4 这是任意的一周期、一字指令 ... ... b1 j1

分支转移指令流水线图 用分支转移指令的地址a1加载PAB。 取得双字分支转移指令 取得双字分支转移指令

i3和i4指令取指。由于这两条指令处在分支转移指令的后面,虽然已经取指,但不能进入译码级,且最终被丢弃。 分支转移指令流水线图 分支转移指令进入译码级 i3和i4指令取指。由于这两条指令处在分支转移指令的后面,虽然已经取指,但不能进入译码级,且最终被丢弃。 用新的值b1加载PAB

由于i3和i4指令是不允许执行的,所以这两个周期均花在分支转移指令的执行上。 分支转移指令流水线图 双字分支转移指令进入流水线的执行级 双字分支转移指令进入流水线的执行级 由于i3和i4指令是不允许执行的,所以这两个周期均花在分支转移指令的执行上。 执行j1指令 j1指令取指

允许跟在延迟分支转移指令之后的两条单字或一条双字指令可以被执行 1.延迟操作指令后面只有两个字的空 隙,因此不能在此空隙中安排任何 一类分支转移指令或重复指令; 2.在CALLD或RETD的空隙中还不能安 排PUSH和POP指令。 3.延迟操作指令比它们的非延迟型 指令要快,在调试延迟型指令时, 直观性稍差一些,因此希望在大多 数情况下还是采用非延迟型指令。 注意

例3-8 在完成R=(x+y)*z操作后转至next。   可以分别编出如下两段程序: 利用普通分支转移指令B  利用延迟分支转移指令BD   LD @x,A LD @x,A   ADD @y,A ADD @y,A   STL A, @s STL A, @s   LD @s,T LD @s,T   MPY @z,A BD next   STL A, @r MPY @z,A   B next STL A, @r (共8个字,10个T) (共8个字,8个T) 在空闲的随后两周期中执行下两条指令

2.条件执行指令的流水线图 条件执行指令XC XC n,cnd[,cnd[,cnd]   如果条件满足,则执行下面n(n=1或2)条指令,否则下面n条指令改为执行n条NOP指令。 有下列程序: 地址 指令 a1 i1 a2 i2 a3 i3 a4 XC 2, cond a5 i5 a6 i6

条件执行指令流水线图 XC指令的地址a4加载到PAB 取XC指令的操作码 求解XC指令所规定的条件。如果条件满足,则后面指令i5和i6进入译码级并执行;否则不对i5和i6指令译码。

1. XC是一条单字单周期指令,与条件跳 转指令相比,具有快速选择其后1或2 条指令是否执行的优点 ; 2. XC指令在执行前2个周期就已经求出 条件,如果在这之后到执行前改变条 件(如发生中断),将会造成无期望 的结果 。 3. 要尽力避免在XC指令执行前2个周期 改变所规定的条件 。 4. 并没有规定XC指令后的一条或两条指 令必须是单周期指令。 注 意

3.双寻址存储器的流水线冲突 CPU在单个周期内两次访问双寻址存储器 流水线冲突原因 不会产生流水线冲突的情况 (1)在单周期内允许同时访问DARAM的不同块。 (2)当流水线中的一条指令访问某一存储器块时, 允许流水线中处于同一级的另一条指令访问 另一个存储器块。 (3)允许处于流水线不同级上的两条指令同时访 问同一个存储器块。

CPU能够在单周期内对DARAM进行两次访问而不冲突 是利用一次访问中对前、后半个周期分时进行访问的缘故。 对PAB/PB取指 利用前半周期 对DAB/DB读取第一个数据 利用前半周期 对CAB/CB读取第二个数据 利用后半周期 对EAB/EB将数据写存储器 利用后半周期

CPU同时访问DARAM的同一存储器块就会发生时序上的冲突。 (1) 同时从同一存储器块中取指和取操作数(都在前半个周期);2.同时对同一存储器块进行写操作和读(第二个数)操作(都在后半周期)。 人为合理安排指令,错开访问时序 解决 冲突 办法 CPU通过写操作延迟一个周期,或者通过插入一个空周期的办法,自动地解决

从DARAM块中同时取指和取操作数 冲突 延迟一个周期

4.解决流水线冲突的方法 (1)可能发生流水线冲突的情况 1) 辅助寄存器(AR0~AR7)。 2) 重复块长度寄存器(BK)。 3) 堆栈指针。 4) 暂存器(T)。 5) 处理器工作方式状态寄存器(PMST)。 6) 状态寄存器(ST0和ST1)。 7)块重复计数器(BRC)。 8)存储器映象累加器(AG、AH、AL、BG、BH、BL)。

流水线冲突情况分析

发生流水线冲突的例子 冲突 在流水线的执行阶段进行写操作 在流水线的寻址阶段生成地址 数据未准备好 解决 无等待周期问题

CPU自动地将STM的写操作延迟一个周期 新冲突 在流水线的执行阶段进行写操作 发生流水线冲突的例子 解决 冲突 CPU自动地将STM的写操作延迟一个周期 新冲突 同时利用E总线 数据未准备好 读数阶段将常数10写到AR1 在流水线的寻址阶段生成地址

STLM指令后面插入一条NOP指令 发生流水线冲突的例子 读数阶段将常数10写到AR1 在流水线的执行阶段进行写操作 E总线错开 解决 读数阶段将常数10写到AR1 在流水线的执行阶段进行写操作 数据准备好 解决 在流水线的寻址阶段生成地址

4.解决流水线冲突的方法 (2)用等待周期表解决流水线冲突 等待周期表给出了对存储器映象寄存器以及ST0、ST1、PMST的控制字段进行写操作的各种指令所需插入的等待周期。 对双字或三字指令,都会提供隐含的保护周期。利用这些指令提供的隐含的保护周期,有时可以不插NOP指令。

等待周期表1 控制字段 不插入 插入1个 插入2个 T STM #1k, T MVDK Smem,T LD Smem,T LD Smem,T‖ST 所有其它存储指令 包括EXP   ASM LD #k5, ASM LD Smem,ASM 所有其它存储指令  DP CPL=0 LD #k9, DP LD Smem,DP STM # lk,ST0 ST # lk,ST0 所有其它存储指令插入3个 SXM C16 FRCT OVM 所有存储指令 包括SSXM和RSXM A 或B 修改累加器然后读MMR 在RPTB[D]前读BRC STM # lk,BRC ST # lk,BRC MVDK Smem,BRC MVMD MMR,BRC SRCCD (在循环中)  见说明4 等待周期表1

例3-11 利用表3-8等待周期表1选择插入的NOP数。 SSBX SXM NOP LD @x,B 由于LD @ x,B是一条单字指令,不提供隐含的保护周期。根据表3-8的等待周期表1,应当在SSBX SXM 指令后插入一条NOP指令。而 LD *(x),B 由于LD *(x),B是一条双字的绝对寻址指令,它隐含一个等待周期,故SSBX指令就不要再插NOP指令了。 ST1第8位 SXM=0禁止符号位扩展 SXM=1允许符号位扩展

例3-13 利用表3-8等待周期表3插入NOP周期解决流水线冲突。 STLM B,AR2 NOP STM #input,AR3 例3-12 利用隐含等待周期解决流水线冲突。 LD @GAIN ,T STM #input,AR1 MPY *AR1+,A 例3-13 利用表3-8等待周期表3插入NOP周期解决流水线冲突。 STLM B,AR2 NOP STM #input,AR3 MPY AR2+,*AR3+,A LD 中写T和STM中写AR1要用到E总线,由于STM是一条双字指令,隐含一个等待周期,故对于AR1来说,等待周期为0。 STM中写AR3要用到E总线,会与STLM中写AR2用E总线相冲突,查表3-8等待周期表3的控制字段为AR3,STLM指令后应插入2个NOP,但由于下条指令STM隐含1个等待周期,故只需要插入一条NOP指令。

第四节 指令系统概述 TMS320C54x是TMS320系列中的一种定点数字信号处理器,它的指令系统分助记符形式和代数式形式两种。 第四节 指令系统概述 TMS320C54x是TMS320系列中的一种定点数字信号处理器,它的指令系统分助记符形式和代数式形式两种。 共有指令129条,由于操作数的寻址方式不同,派生至205条。

TMS320C54x指令系统的主要特点 1.可同时读入2或3个操作数; 2.支持双精度运算的32位长操作数指令; 3.可进行单条指令重复和块指令重复操作; 4.有块存储器传送指令和并行操作(如并行存储和加载、并行存储和加/减法、并行存储和乘法、并行加载和乘法)指令; 5.设有条件存储指令及延迟操作指令、有从中断快速返回指令; 6.有为特殊用途设计的指令(如支持FIR滤波、最小均方算法LSM、多项式计算以及浮点运算); 7.有为省电安排的空转指令。

TMS320C54x的指令集有近两百条指令,按功能分为如下几类: 算术运算指令 逻辑运算指令 程序控制指令 装入和存储指令

一、算术运算指令 算术运算指令可分为如下几类:  加法指令  减法指令  乘法指令  乘加指令  乘减指令  双数/双精度指令  加法指令  减法指令  乘法指令  乘加指令  乘减指令  双数/双精度指令  特殊操作指令

1、加法指令

定点DSP中数据表示方法 当它表示一个整数时,其最低位(D0)表示1,D1位表示2的1次方,次高位(D14)表示2的14方。 如果表示一个有符号数时,最高位(D15)为符号位,0表示正数,1表示负数。例如,07FFFH表示最大的正数32767(十进制),而0FFFFH表示最大的负数-1(负数用2的补码方式显示)。 当需要表示小数时,小数点的位置始终在最高为后,而最高位(D15)表示符号位。这样次高位(D14)表示0.5,然后是0.25,最低位(D0)表示。所以4000H表示小数0.5,2000H表示小数0.25,而0001H表示16位定点DSP表示的最小的小数(有符号)0.000030517578125。

实现16位定点加法 ‘C54X中提供了多条用于加法的指令,如ADD,ADDC,ADDM和ADDS。其中ADDS用于无符号数的加法运算,ADDC用于带进位的加法运算(如32位扩展精度加法),而ADDM专用于立即数的加法。

使用ADD完成加法 ld temp1,a ;将变量temp1装入寄存器A add temp2,a ;将变量temp2与寄存器A相加 stl a,temp3 ;将结果(低16位)存入变量 ;temp3中。 注意,这里完成计算temp3=temp1+temp2,我们没有特意考虑temp1和temp2是整数还是小数,在加法和下面的减法中整数运算和定点的小数运算都是一样的。

ADD中寻址方式 ADD Smem [,SHIFT],src [,dst] 例如: ADD *AR0,1,A,A ADD 60H,-1,A,A ADD *AR5,1,A,B ADD Xmem, SHFT, src 例如: ADD *AR5,1,A ADD Xmem,Ymem, dst 例如: ADD *AR2,*AR3,A

2、减法指令

实现16位定点减法 ‘C54X中提供了多条用于减法的指令,如SUB,SUBB,SUBC和SUBS。其中SUBS用于无符号数的减法运算,SUBB用于带进位的减法运算(如32位扩展精度的减法),而SUBC为移位减,DSP中的除法就是用该指令来实现的。

减法指令使用举例 stm temp1,ar3 ;将变量temp1的地址装入ar3寄存器 sub *ar2+, *ar3,b ;相减,结果放入寄存器B(高16位)中, ; 同时ar2加1。 sth b,63h ;将相减的结果(高16位)存入变量63h

利用SUBC实现除法 在‘C54X中没有提供专门的除法指令,一般有两种方法来完成除法。一种是用乘法来代替,除以某个数相当于乘以其倒数,所以先求出其倒数,然后相乘。这种方法对于除以常数特别适用。另一种方法是使用SUBC指令,重复16次减法完成除法运算。

利用SUBC完成除法运算 ld temp1,B ;将被除数temp1装入B寄存 ;器的低16位 rpt #15 ;重复SUBC指令16次 subc temp2,b ;使用SUBC指令完成除法 stl B,temp3 ;将商(B寄存器的低16位) ;存入变量temp3 sth B,temp4 ;将余数(B寄存器的高16位) ;存入变量temp4 注: 实际上是完成整数除法

实现小数除法 在‘C54X中实现16位的小数除法与前面的整数除法基本一致,也是使用SUBC指令来完成。但有两点需要注意:第一,小数除法的结果一定是小数(小于1),所以被除数一定小于除数。在执行SUBC指令前,应将被除数装入A或B寄存器的高16位,而不是低16位。其结果的格式与整数除法一样。第二,应考虑符号位对结果小数点的影响。所以应对商右移一位,得到正确的有符号数。

3、乘法指令

实现16定点整数乘法 在‘C54X中提供了大量的乘法运算指令,其结果都是32位,放在A或B寄存器中。乘数在‘C54X的乘法指令很灵活,可以是T寄存器、立即数、存贮单元和A或B寄存器的高16位。如果是无符号数乘时,请使用MPYU指令。这是一条专用于无符号数乘法运算的指令,而其它指令都是有符号数的乘法。

整数乘法举例 rsbx FRCT ;清FRCT标志,准备整数乘 ld temp1,T ;将变量temp1装入T寄存器 mpy temp2,a ;完成temp2*temp1,结果放 ;入A寄存器(32位)

实现小数乘法 在‘C54X中,小数的乘法与整数乘法基本一致,只是由于两个有符号的小数相乘,其结果的小数点的位置在次高的后面,所以必须左移一位,才能得到正确的结果。‘C54X中提供了一个状态位FRCT,将其设置为1时,系统自动将乘积结果左移移位。两个小数(16位)相乘后结果为32位,如果精度允许的话,可以只存高16位,将低16位丢弃,这样仍可得到16位的结果。

小数乘法举例 ssbx FRCT ;FRCT=1,准备小数乘法 ld temp1,16,a ;将变量temp1装入寄存器A的高16位 mpya temp2 ;完成temp2乘寄存器A的高16位,结 ;果在B中,同时将temp2装入T寄存器 sth b,temp3 ;将乘积结果的高16位存入变量temp3 如:0.1(0x0ccd) x 0.7(0x599a) = 0.06997680664063(0x08f5) 注:可以使用MPYR完成四舍五入。 比较如下结果 mpyr temp1,b ; T * temp1 -> b

4、乘加和乘减指令

5、双精度/双数操作指令

6、特殊指令

逻辑指令包括与、或、异或、移位和测试指令 二、逻辑运算指令 逻辑指令包括与、或、异或、移位和测试指令 1、与指令(AND)

2、或、异或指令

3、移位和测试指令

三、程序控制指令 程序控制指令包括: 分支指令 调用指令 中断指令 返回指令 重复指令 堆栈操作指令 混合程序控制指令

1、分支指令

2、调用与中断指令

3、返回指令

4、重复指令和堆栈操作指令

5、混合程序控制指令

四、装入和存储指令 装入和存储指令包括: 一般的装入和存储指令 条件存储指令 并行装入和存储指令 并行装入和乘法指令 并行存储和加件乘指令 混合装入和存储指令

1、一般的装入指令

2、存贮指令

3 并行装入和存储指令 4、条件存储指令

5、并行存储和加、减、乘法指令

6、并行装入和乘法指令

7、混合装入和存储指令

注意:同一条指令在不同存储器中可能有不同执行时间 操作数在双寻址空间、单寻址空间和外部 程序代码在双寻址、单寻址和外部空间 操作数和代码在相同存储器块中 数据空间插入了等待周期 程序空间插入了等待周期

特殊指令使用说明 FIRS指令 FIRS指令用于线性相位滤波器的处理。一个如下图的8阶线性相位滤波器的输出表达式: FIRS指令使用方法: FIRS *AR2+, *AR3+, COEF

FIR滤波的两指令MAC、FIRS RPTZ B, #(N/2-1) ; 重复FIRS指令N/2次,先将B清零 RPTZ A,#(N-1) ;重复MAC指令N次,先将A清零 MAC *FIR_DATA_P+0%,*FIR_COFF_P+0%,A ; 完成滤波计算。注意FIR滤波 ;系数存放在数据存储区 RPTZ B, #(N/2-1) ; 重复FIRS指令N/2次,先将B清零 FIRS *ar2+0%, *ar3+0%,filter_coff+N/2 ;完成滤波计算。注意FIR滤波系数 ;存放在程序存贮filter_coff为 ;系数起始地址

Viterbi译码指令DADST、DSADT、CMPS 在信道均衡和解码中经常会使用到Viterbi算法,C54x为此提供了专门的硬件和指令。根据输入信号确定分支似然概率增加量D1/D2,放在T寄存器中,TRN存储可能信号译码输出。

相关指令应用

最小均方运算LMS 在进行自适应滤波等操作中经常会使用LMS算法,C54x提供的LMS指令方便了编程。如下图所示的自适应滤波器设计中,滤波器系数修正公式为: 其中,e(i) = d(i) - y(i)。 滤波器输出:

基于LMS的自适应滤波编程

数据归一化相关指令EXP、NORM 归一化一个数是先求其指数,然后把它调整到最大精度格式。实现方法如下:

数据块移动MVDD、MVDP、MVPD 在C54x系列DSP,数据与数据存储器、数据与程序存储器之间可以方便的进行数据传输,结合单指令循环可实现数据块移动。如16个系数的移动:

C54x中有一些指令功能差不多,但编写出的程序效率不同,应灵活使用,如: MPY[R] Smem, dst ;T*(Smen)dst 指令效率的提高 C54x中有一些指令功能差不多,但编写出的程序效率不同,应灵活使用,如: MPY[R] Smem, dst ;T*(Smen)dst MAC[R] Smem, dst ;(Smen)*T+src ( MPY[R] +ADD) ; src MACD Smen,pmen,src ;pmend PAR (MAC+DELY+LD) ;(Smem)*(pmed) ; +(src) src ;(Smem)T ;(Smem) Smem+1