将向量数据表示和流水线技术结合起来，构成向量流水处理机，简称向量处理机（Vector Processor）

Slides:

Advertisements

Similar presentations

《微型计算机技术及应用》 ( 第 4 版） —— 戴梅萼史嘉权. 目标深刻理解牢固掌握灵活应用.

Advertisements

Welcome to the world of Computer Organization 计算机组成原理

§4 指令系统的发展和改进 CISC和RISC 按CISC方向发展和改进指令系统按RISC方向发展和改进指令系统.

第 2 章中央處理單元.

石教英浙江大学计算机学院计算机系统研究所 2002年11月

信息技术：硬件、软件、网络、数据库计算机技术、多媒体技术、压缩技术...

——Windows98与Office2000(第二版) 林卓然编著中山大学出版社

LSF系统介绍张焕杰中国科学技术大学网络信息中心

2017年3月5日单片机原理与应用背景知识调查.

计算机组装与维护电子商务系.

微处理器概述 CPU的基本概念和组成.

电子数字计算机计算机性能计算机硬件计算机软件多级层次结构

第十章安腾高性能处理机体系结构高性能处理机体系结构的演变安腾体系结构的基本设计思想安腾指令系统结构指令级并行机制

计算机组成原理北京理工大学计算机科学工程系赵清杰北京理工大学计算机科学工程系.

计算机体系结构 Computer Architecture

第11章计算机系统计算机系统概述分类方法、计算机系统性能评测方法 2. 微机系统 3. 他体系结构处理机

第三章计算机核心部件及其工作原理.

计算机组成原理第二十一讲计算机科学与技术学院舒燕君.

计算机组成与系统结构主讲教师: 胡越明课件下载: ftp://ftp.cs.sjtu.edu.cn /huym/计算机组成与系统结构

核心系统数据库组褚霸(余锋) CPU高效编程技术核心系统数据库组褚霸(余锋)

1.1 计算机系统简介 1.2 计算机的基本组成 1.3 计算机硬件的主要技术指标 1.4 本书结构.

计算机系统结构南京航空航天大学计算机科学与技术学院主讲：刘佳

计算机基础知识丁家营镇九年制学校徐中先.

施耐德电气(中国)投资有限公司运动控制部技术经理李幼涵高级工程师

LSF系统介绍张焕杰中国科学技术大学网络信息中心

8.1 CPU 的结构 8.3 指令流水 8.2 指令周期 8.4 中断系统.

第一单元初识C程序与C程序开发平台搭建 ---观其大略

第1章计算机系统设计基础第2章数据表示与指令系统性能分析第3章通道处理机第4章流水技术和向量处理第5章阵列计算机

逆向工程-汇编语言

数据挖掘工具性能比较.

CPU结构和功能.

第８章 CPU 的结构和功能 8.1 CPU 的结构 8.3 指令流水 8.2 指令周期 8.4 中断系统.

第6章向量处理机包仲贤兰州兰州理工大学计算机与通信学院 2019年2月16日星期六计算机系统结构第六章向量处理机.

版权所有，引用请注明出处第六章、中央控制器原著谭志虎主讲(改编) 蒋文斌.

用event class 从input的root文件中，由DmpDataBuffer::ReadObject读取数据的问题

计算机组成与系统结构陈泽宇副教授.

2.1.2 空间中直线与直线之间的位置关系.

计算机系统结构第一章基本概念第二章指令系统第三章存储系统第四章输入输出系统** 第五章标量处理机第六章向量处理机

C语言程序设计主讲教师：陆幼利.

简单介绍用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)

微机系统的组成.

线段的有关计算.

（Random Access Memory)

微机原理与接口技术微机原理与接口技术朱华贵 2015年11月13日.

第三章 MCS 51的硬件结构.

第二章补充知识 2.1 总线和三态门一、总线（BUS）三总线结构数据总线DB（Data Bus）

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

实验三 16位算术逻辑运算实验不带进位控制的算术运算置AR=1：设置开关CN 1 不带进位 0 带进位运算；

实验二带进位控制8位算术逻辑运算实验带进位控制8位算术逻辑运算： ① 带进位运算 ② 保存运算后产生进位

§6.7 子空间的直和一、直和的定义二、直和的判定三、多个子空间的直和.

第八章总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.

第4课时绝对值.

微机原理与接口技术 ——8086微处理器西安邮电大学计算机学院范琳.

临界区问题的硬件指令解决方案（Synchronization Hardware）

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

3. 逻辑运算指令 A、简单逻辑操作指令 CLR A. (不影响CY、AC、 OV标志) CPL A

实验目的：掌握数据的顺序存储结构及它们在计算机中的操作。实验内容：

清华大学计算机科学与技术系高性能计算研究所郑纬民教授 2005年5月

基于列存储的RDF数据管理朱敏

机械设计A 、B 重修涮分学习过，想提高？？上课考勤？？平时成绩 %

周学海中国科学技术大学 2019/7/8 计算机体系结构周学海中国科学技术大学.

本底对汞原子第一激发能测量的影响钱振宇

24 or 1024? PWN Jawbone Up24 手环.

第四章 UNIX文件系统.

第十七讲密码执行(1).

FVX1100介绍法视特（上海）图像科技有限公司施俊.

使用Fragment 本讲大纲： 1、创建Fragment 2、在Activity中添加Fragment

入侵检测技术大连理工大学软件学院毕玲.

Presentation transcript:

将向量数据表示和流水线技术结合起来，构成向量流水处理机，简称向量处理机（Vector Processor）向量的流水处理向量流水处理机

向量的流水处理提高流水性能方法：增加流水线段数，以减少Δt 每个时钟同时启动多条指令减少相关，减少功能变换次数，增加处理指令条数。

向量的流水处理（续）向量操作特点向量操作很适合于流水处理或并行处理。向量元素间操作相互独立，且为相同操作相当于标量循环，对指令带宽的访问要求不高可采用多体交叉存储器，减少访存延迟。向量操作很适合于流水处理或并行处理。

向量的流水处理（续）向量处理过程向量的分量间采取的是流水方式。并行处理机(SIMD)处理向量时采取的是并行方式。置VL、VM、A 运算。向量的分量间采取的是流水方式。并行处理机(SIMD)处理向量时采取的是并行方式。

向量的流水处理（续）向量处理工作方式如：D=A×(B+C) 横向加工：bi+ci->k, k*ai->di 产生N次相关，2N次功能切换，适合标量循环纵向加工：bi+ci->ki, ki*ai->di 产生1次相关，1次功能切换，可流水处理纵横处理：对向量分组，组内纵向、组间横向处理

向量流水处理机向量流水处理机的指令系统向量流水处理机的结构超级向量流水处理机举例

向量流水处理机的指令系统包含有向量型和标量型两类指令向量型运算类指令特殊操作指令向量V1运算得向量V2，如V2=SIN(V1) 向量V1与向量V2运算得向量V3，V3=V1^V2 向量V1与标量S运算得向量V2，V2=S*V1 特殊操作指令向量比较指令向量压缩指令归并指令向量传送指令

向量流水处理机的结构 1972年首次交付使用CRAY-1向量流水处理机分布异构型多处理机系统，由中央处理机、诊断维护控制处理机、大容量磁盘存储子系统、前端处理机组成 6个流水线单功能部件：整数加、逻辑运算、移位、浮点加、浮点乘和浮点迭代求倒数向量寄存器由512个64位寄存器组成，分成8组

主存 V7 向量寄存器组(8×64个) 移位逻辑运算 V0 加向量功能部件向量控制迭代求倒数 R/W 相乘 VM S7 浮点主存 V0 V7 向量寄存器组(8×64个) 加向量功能部件标量寄存器 S0 S7 浮点 VM 向量控制移位逻辑运算相乘迭代求倒数向量长度寄存器 VL B T R/W 地址寄存器 A

超级向量流水处理机举例 1972年成立CRAY公司，至今生产了400台以上的超级计算机 1979年CRAY-1S，CRAY-1改进型，有10条流水线 1983年CRAY X-MP,用4台CRAY-1 1985年CRAY-2S 1988年CRAY Y-MP，8台处理机 1991年CRAY Y-MP C-90 1996年12月，克雷研究公司也被SGI公司以7.5亿美元收购 2000年，被Tera公司合并，同年更名Cray 目前产品：MTA、SV1、SX_6、T3E 2002年Cray X1。运算速度最高为每秒52万亿次，支持65.5TB存储器。宣布了在2010年以前实现能够连续地处理每秒1000万亿次 Cray公司称，他们将在2008年使用四核心的AMD Opteron处理器建造XT4超级计算机，并将在2009年接近1Pflops（每秒1000万亿次浮点运算）能力。网址：www.cray.com

超级向量流水处理机举例（续） CDC公司1973年推出第一台超级计算机STAR-100 1964年CDC-6600 RISC特征 1982年 CYBER 205 1999年被Syntegra收购 ETA10：8个CPU 网址：

几种超级计算机的向量性能和标量性能机器型号 Fujitsu VP400 Cray IS Cray 2S Cray X-MP Cray Y-MP Hitachi S820 NEC SX2 向量性能 Mflops 标量性能 Mflops 向量平衡点 85.0 9.8 0.90 151.5 11.2 0.93 143.3 13.1 0.92 201.6 17.0 737.3 17.8 0.98 424.2 9.5 207.1 6.6 0.97 向量平衡点（vector balance point)定义为：为了使向量硬件设备和标量硬件设备的利用率相等，一个程序中向量代码所占的百分比。

§3 指令级高度并行的超级处理机超标量处理机超流水线处理机超标量超流水线处理机超长指令字处理机

超标量处理机采用多指令流水线（度=m）配置多套功能部件、指令译码电路和多组总线，并且寄存器也备有多个端口和多组总线。适合于求解稀疏向量、矩阵 IBM RS/6000、DEC 21064、Intel i960CA、Tandem Cyclone（飓风）等

超标量处理机（续）取指译码执行存结果部件时间度m=3的超标量处理机时空图

超标量处理机基本结构一般流水线处理机：多操作部件处理机：超标量处理机典型结构：一条指令流水线一个多功能操作部件，每个时钟周期平均执行指令的条数小于1。多操作部件处理机：多个独立的操作部件，操作部件可以采用流水线，也可以不流水多操作部件处理机的指令级并行度小于1 超标量处理机典型结构：多条指令流水线进的超标量处理机有：定点处理部件CPU，浮点处理部件FPU,图形加速部件GPU 大量的通用寄存器，两个一级高速Cache 超标量处理机的指令级并行度大于1

举例： Motorola公司的MC88110 10个操作部件两个寄存器堆：整数部件通用寄存器堆，32个32位寄存器；浮点部件扩展寄存器堆，32个80位寄存器。每个寄存器堆有8个端口，分别与8条内部总线相连接，有一个缓冲深度为4的先行读数栈和一个缓冲深度为3的后行写数栈。两个独立的高速Cache中，各为8KB，采用两路组相联方式。转移目标指令Cache，在有两路分支时，存放其中一路分支上的指令

超标量处理机MC88110的结构整数部件位操作浮点加乘法部件除法部件图形部件内部总线读数存数部件通用寄存器堆扩展寄存器堆目标指令指令分配转移部件数据Cache (8KB) 指令Cache (8KB) 系统总线 32位地址总线 32位数据总线

单发射与多发射单发射处理机：每个周期只取一条指令、只译码一条指令，只执行一条指令，只写回一运算结果取指部件和译码部件各设置一套可以只设置一个多功能操作部件，也可以设置多个独立的操作部件操作部件中可以采用流水线结构，也可以不采用流水线结构设计目标是每个时钟周期平均执行一条指令，ILP的期望值1

单发射处理机的指令流水线时空图 IF 时钟周期指令 I1 I2 I3 ID EX WR 1 2 3 4 5 6

IF ID FA1 FA2 FA3 MD1 MD2 MD3 AL LS 浮点加法部件乘除法部件定点ALU部件取数存数部件 WR 来自指令Cache 通用寄存器后行写数栈

单发射与多发射（续）多发射处理机：每个周期同时取多条指令、同时译码多条指令，同时执行多条指令，同时写回多个运算结果需要多个取指令部件，多个指令译码部件和多个写结果部件设置多个指令执行部件，复杂的指令执行部件一般采用流水线结构设计目标是每个时钟周期平均执行多条指令，ILP的期望值大于1

多发射处理机的指令流水线时空图 IF 时钟周期指令 I1 I2 I3 ID EX WR 1 2 3 4 5 6 I4 I5 I6 I7

IF ID FA1 FA2 FA3 MD1 MD2 MD3 AL LS 浮点加法部件乘除法部件定点ALU部件取数存数部件 WR

超标量处理机：先行指令窗口：一个时钟周期内能够同时发射多条指令的处理机称为超标量处理机必须有两条或两条以上能够同时工作的指令流水线能够从指令Cache中预取多条指令能够对窗口内的指令进行数据相关性分析和功能部件冲突的检测窗口的大小：一般为2至8条指令采用目前的指令调度技术，每个周期发射2至4条指令比较合理

举例 Intel公司的i860、i960、Pentium处理机， Motolora公司的MC88110处理机，IBM公司的Power 6000处理机等每个周期都发射两条指令 TI公司生产的SuperSPARC处理机以及Intel的Pentium III处理机等每个周期发射三条指令操作部件的个数多于每个周期发射的指令条数。4个至16个操作部件超标量处理机的指令级并行度：1＜ILP＜m；m为每个周期发射的指令条数。

IF ID FA1 FA2 FA3 MD1 MD2 MD3 AL LS 浮点加法部件乘除法部件定点ALU部件取数存数部件 WR 先行指令窗口

超流水线处理机两种定义：提高处理机性能的不同方法：两种不同并行性：一个周期内能够分时发射多条指令的处理机称为超流水线处理机。指令流水线有8个或更多功能段的流水线处理机称为超流水线处理机。提高处理机性能的不同方法：超标量处理机是通过增加硬件资源为代价来换取处理机性能的。超流水线处理机则通过各硬件部件充分重叠工作来提高处理机性能。两种不同并行性：超标量处理机采用的是空间并行性超流水线处理机采用的是时间并行性

指令执行时序每隔1/n个时钟周期发射一条指令，流水线周期为1/n个时钟周期在超标量处理机中，流水线的有些功能段还可以进一步细分例如：ID功能段可以再细分为译码、读第一操作数和读第二操作数三个流水段。也有些功能段不能再细分，如WR功能段一般不再细分。因此有超流水线的另外一种定义：有8个或8个以上流水段的处理机称为超流水线处理机

超流水线处理机（续） 1 4 7 10 2 5 8 11 3 6 9 12 取指译码执行存结果每个时钟周期分时发送3条指令的超流水线

举例： MIPS R4000 MIPS R4000处理机每个时钟周期包含两个流水段，是一种很标准的超流水线处理机结构。指令流水线有8个流水段有两个Cache，指令Cache和数据Cache的容量各8KB，每个时钟周期可以访问Cache两次，因此在一个时钟周期内可以从指令Cache中读出两条指令，从数据Cache中读出或写入两个数据。主要运算部件有整数部件和浮点部件

MIPS R4000处理机的流水线操作指令 Cache IF：取第一条指令 IS：取第二条指令 RF：读寄存器堆，指令译码 EX：执行指令 DF：取第一个数据 DS：取第二个数据 TC：数据标志校验；WB：写回结果指令译码读寄存器堆 ALU 数据标志检验寄存器堆 IF IS RF EX DF DS WB TC

MIPS R4000正常指令流水线工作时序 IF 流水线周期当前CPU周期 IS RF EX DF DS TC WB 主时钟周期

超标量超流水线处理机把超标量与超流水线技术结合在一起，就成为超标量超流水线处理机指令执行时序超标量超流水线处理机在一个时钟周期内分时发射指令n次，每次同时发射指令m条，每个时钟周期总共发射指令m × n条。

每时钟周期发射3次,每次3条指令 IF 时钟周期指令 I1 I2 I3 ID EX WR 1 2 3 4 5 I4 I5 I6 I7 I8

举例： DEC公司的Alpha DEC公司的Alpha处理机采用超标量超流水线结构。主要由四个功能部件和两个Cache组成：整数部件EBOX、浮点部件FBOX、地址部件ABOX和中央控制部件IBOX。中央控制部件IBOX可以同时从指令Cache中读入两条指令，同时对读入的两条指令进行译码，并且对这两条指令作资源冲突检测，进行数据相关性和控制相关性分析。如果资源和相关性允许，IBOX就把两条指令同时发射给EBOX、ABOX和FBOX三个指令执行部件中的两个。指令流水线采用顺序发射乱序完成的控制方式。在指令Cache中有一个转移历史表，实现条件转移的动态预测。在EBOX内还有多条专用数据通路，可以把运算结果直接送到执行部件。

举例： DEC公司的Alpha Alpha 21064处理机共有三条指令流水线整数操作流水线和访问存储器流水线分为7个流水段，其中，取指令和分析指令为4个流水段，运算2个流水段，写结果1个流水段。浮点操作流水线分为10个流水段，其中，浮点执行部件FBOX的延迟时间为6个流水段。所有指令执行部件EBOX、IBOX、ABOX和FBOX中都设置由专用数据通路。析指令为4个流水段，运算2个流水段，写结果1个流水段。浮点操作流水线分为10个流水段，其中，浮点执行部件FBOX的延迟时间为6个流水段。所有指令执行部件EBOX、IBOX、ABOX和FBOX中都设置由专用数据通路。 Alpha 21064处理机的三条指令流水线的平均段数为8段，每个时钟周期发射两条指令。因此，Alpha 21064处理机是超标量超流水线处理机。

三种指令级并行处理机性能比较超标量处理机、超流水线处理机和超标量超流水线处理机相对于单流水线普通标量处理机的性能曲线。 0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 8 相对性能超标量超流水线超标量超流水线指令级并行度

结论三种处理机的性能关系超标量处理机的相对性能最高，其次是超标量超流水线处理机，超流水线处理机的相对性能最低，主要原因如下：超标量处理机在每个时钟周期的一开始就同时发射多条指令，而超流水线处理机则要把一个时钟周期平均分成多个流水线周期，每个流水线周期发射一条指令；因此，超流水线处理机的启动延迟比超标量处理机大。

结论（续）条件转移造成的损失，超流水线处理机要比超标量处理机大。在指令执行过程中的每一个功能段，超标量处理机都重复设置有多个相同的指令执行部件，而超流水线处理机只是把同一个指令执行部件分解为多个流水级；因此，超标量处理机指令执行部件的冲突要比超流水线处理机小。

结论（续）实际指令级并行度与理论指令级并行度的关系当横坐标给出的理论指令级并行度比较低时，处理机的实际指令级并行度的提高比较快。当理论指令级并行度进一步增加时，处理机实际指令级并行度提高的速度越来越慢。在实际设计超标量、超流水线、超标量超流水线处理机的指令级并行度时要适当，否则，有可能造成花费了大量的硬件，但实际上处理机所能达到的指令级并行度并不高。目前，一般认为，m 和 n 都不要超过4。

结论（续）最大指令级并行度一个特定程序由于受到本身的数据相关和控制相关的限制，它的指令级并行度的最大值是有限的，是有个确定的值。这个最大值主要由程序自身的语义来决定，与这个程序运行在那一种处理机上无关。对于某一个特定的程序，图中的三条曲线最终都要收拢到同一个点上。当然，对于各个不同程序，这个收拢点的位置也是不同的。

超标量处理机：超流水线处理机：超标量超流水线处理机： Intel公司的i860, i960, Pentium处理机 Motolora公司的MC88110 IBM公司的Power 6000 SUN公司的SuperSPARC等超流水线处理机： SGI公司的MIPS R4000, R5000, R10000等超标量超流水线处理机： DEC公司的Alpha等

超标量、超流水、超标量超流水处理机的主要性能 k段流水线基准标量处理机 m度超标量 n度超流水线 (m,n)度超标量超流水机器类型机器流水线周期同时发射指令条数指令发射等待时间指令级并行度ILP 1个时钟周期 1条 1 m 1/n n m´n

超长指令字处理机(VLIW) VLIW (Very Long Instruction Word) 是将水平型微码和超标量处理两者结合的结构指令字长可达数百位，多个功能部件并发工作，共享大容量寄存器堆。是一种单指令多操作码多数据的系统结构（SIMOMD）

超长指令字处理机（续）存/取浮点加浮点乘 …… 定点算逻转移主存寄存器堆典型的VLIW处理机组成和指令格式部件法部件逻部件典型的VLIW处理机组成和指令格式

超长指令字处理机（续）取指译码执行存结果部件时间度m=3的执行时空图

EPIC Explicitly Parallel Instruction Computing 显性并行指令计算 1994年,Intel和HP决定联合开发新一代微处理器—基于IA-64架构的Merced,并共同定义了显性并行指令计算技术EPIC. IA-64指令系统的统称。集成RISC和VLIW各自的优势技术，指令字长为128位，包含三个40位的指令和一个8位的模版代码。每个指令分为多个独立的操作字段，每个字段可分别控制各个功能部件并行工作，而模版中包含各指令间并行处理的信息，依据模版代码信息，可同时在不同的执行单元中执行三条没有相关性的指令，控制并行处理关系，提高并行处理能力

EPIC EPIC是一种超越超标量的新模式,它克服了VLIW处理器的缺点,实现下面的3步：由编译器先分析指令间的依赖关系；编译器将没有依赖关系的指令,按最多是3个指令为一组,组合成多个“组”；由内置的执行单元将分成组的指令群并行执行。因每条指令究竟分给哪一个执行单元是由软件决定的,因而利用简单的硬件就可以提高指令的并行度,降低了处理器的制造成本。

RVIP技术和CRVIP技术 RVIP(RISC-VLIW Processor)技术和CRVIP（CISC-RISC-VLIW Processor）技术是将RISC超标量结构与VLIW技术融为一体,或将CRIP(CISC-RISC Processor)混合结构与VLIW技术融为一体的技术. 在融合VLIW和超标量结构技术的RVIP型或者CRVIP型微处理机中,将不必在其执行部件中设置复杂的执行顺序控制电路。因为在指令分发调度之前就已经弄清楚了这些指令之间的相关联性。 VLIW技术渗入的显著效果之一,就是它消除了超标量结构的过分的复杂性,从而使硬件系统结构设计获得简化。

HP Integrity Superdome Itanium 2 SGI Altix 3700 Linux HP Integrity Superdome HP-UX,Win2000,Linux

向量处理机的发展 1、向量计算机系统结构的发展趋势提供多种向量运算指令。除具有向量处理功能外还有其它功能。采用多层次的存储器系统。流水线技术与并行技术相结合。 2、向量计算机系统结构要解决的六个技术问题：处理机带宽，两种方法：运算部件采用流水线结构。用多个运算器构成并行系统。存储器带宽，多种解决方法：用多个独立的存储体构造一个大容量的存储器系统。采用多层次的存储器系统提高访问速度。采用高速缓冲存储器和可寻址的寄存器组效果最好。采用流水线技术，存储系统的访问速度快5～20倍。

输入／输出带宽许多高性能向量处理机配备10 ~ 29个DMA通道。通信带宽。共享存储器或互连网络。同步。多流水线结构通过控制程序使所有流水线同步工作。 Cray-1系统采用流水线互锁来控制向量操作，不冲突的操作可以并行地执行，相关的操作尽可能链接起来重叠地进行。多用途。非数值计算问题。 3、向量计算机系统结构的主要优点是：通过流水线存取方式有效地提高了存储器的带宽。流水结构的运算器有很高的性能价格比。非常简单的机制就能满足通信和同步的要求。向量处理机以Mflops (Million floating-point operations per second)作为速度单位。一般认为，标量计算机中执行一次浮点运算需２~５条指令，平均需３条指令。

小结流水线方式相关问题：转移、数据、控制、指令时空图分析单功能非线性流水线调度超标量、超流水线、VLIW