多核结构与程序设计杨全胜 http://www.njyangqs.com/ 东南大学成贤学院计算机系.

Slides:

Advertisements

Similar presentations

《微型计算机技术及应用》 ( 第 4 版） —— 戴梅萼史嘉权. 目标深刻理解牢固掌握灵活应用.

Advertisements

计算机应用基础江西财经大学信息管理学院凌传繁

第二章 CPU 制作者：李天和.

第 2 章中央處理單元.

第一章多核概述使用多核了吗？摩尔定律——芯片的晶体管数量每一年半左右增长一倍。处理器性能不断提高主要基于两个原因：

计算机基础第一章计算机基础知识机电系计算机教研室

第五章中央处理器 5.1 CPU的组成和功能 5.2 指令周期 5.3 时序产生器和控制方式 5.4 微程序控制器 5.5 微程序设计技术

第7章存储系统.

第二章微型计算机系统第一节基本术语和基本概念第二节计算机系统的基本构成第三节微机系统的硬件组成第四节微机系统的软件组成.

精品开放课程的建设与应用谢幼如教授广东省高校教育技术中心华南师范大学教育信息技术学院

第3讲教学内容 1.3~ 微型计算机系统——硬件部分计算机的产生发展计算机系统组成（硬件结构）计算机工作原理

计算机组装与维护电子商务系.

Chap4 電腦硬體基本單元高中資訊科技概論松崗圖書公司.

信息技术基础 Windows 7 + Office 2007.

組裝電腦DIY 前言：提供基礎的電腦零件組裝教學，對於個人電腦零件有基本的認識、並有組裝零件使電腦能運行的能力、能親手升級自己想要的零件、及基本的簡易判斷無法開機的原因；最後並提供實做，親手ＤＩＹ將電腦組裝起來並安裝作業系統。對象：對電腦組裝沒概念或一知半解者；想要能自己解決電腦無法開機，或是能自己升級想要的專屬電腦配備；可以當家庭的電腦醫生不想電腦一碰到問題就叫修花錢者;自己是電腦軟體方面的工作者，想要增加自己的競爭實力.

CPU 一、基本知识二、常见品牌三、评价指标四、AMD VS Intel 五、单核与双核六、多核

電腦作業-CPU介紹班級:117 座號:07號姓名:周奕廷.

第一章计算机基础知识计算机的发展简史 1 计算机软件系统 6 计算机的定义和分类 2 微型计算机的组成 7 计算机的特点和用途 3

计算机组成原理北京理工大学计算机科学工程系赵清杰北京理工大学计算机科学工程系.

日新月异的信息技术.

计算机组成原理东南大学计算机学院任国林

新世代計算機概論第3章　電腦的系統單元.

第2章　主机李渊林本章要点　　CPU 主板 2.3 　　内存 2.4 机箱和电源.

华南理工大学陈虎博士多核处理器技术华南理工大学陈虎博士

第1章电脑组装基础知识 1.1 电脑的用途和配置 1.2 电脑的组成 1.3 了解几款台式机.

计算机与信息技术应用基础徐东雨计算机中心

大连理工大学软件学院软件工程系赖晓晨计算机组成与结构大连理工大学软件学院软件工程系赖晓晨

第3章微型计算机主机 3.1 中央处理器（CPU）中央处理器CPU的英文全称是Central Processing Unit。它是微型计算机的核心部件，现代微机的CPU采用了超大规模集成电路技术及先进的封装技术将运算器、控制器、内部寄存器、高速缓存集成为一块芯片，因此它是微机中相对技术含量最高，且就单位重量或体积而言价值最高的一个部件。不同档次的微机即是以其CPU的档次来划分的，也就是说CPU的性能基本上就反映出一台微机的的性能。

第2课 CPU 本课要点具体要求本章导读.

報告人：王月杏行動電話台南市九十九年度電腦維運相關事宜報告人：王月杏行動電話

99年台南市中小學電腦維運 --招標結果暨配發說明

答辩人:邹世民专业:计算机科学与技术指导老师:张宏鑫

存储器的层次结构 512KB~8MB 400GB/S 1~8GB 12GB/S CPU Cache RAM 500GB DISK

Word 2003 學習導引手冊第一章 WORD 基本操作作者丁安強博碩-Word 2003 學習導引手冊 Ch01.

型號 – ASUS F3APT2YDD 規格型號：ASUS F3APT2YDD-FBQCCCA 處理器：Intel Core Duo T2060 最新65奈米製程(1.6GHz，533MHz FSB ，2MB L2 Cache) 記憶體：1GB DDRII 螢幕：15.4" WXGA 鏡面寬螢幕.

主讲教师：唐大仕第5讲计算机硬件主讲教师：唐大仕

第 2 章中央處理單元.

第2章 Intel IA-32/Intel 64处理器结构与原理

第8章现代微型计算机 x86系列微处理器 8.2 微型计算机体系结构 8.3 存储管理技术 8.4 多任务管理与I/O管理

第5章中央處理單元與主記憶體 5-1 中央處理單元－CPU 5-2 主記憶體.

新電腦硬體製作者: 陳卉茹鄭如君.

二、计算机基本硬件介绍及选购 By:查宇

CPU資料處理醫務管理暨醫療資訊學系陳以德副教授: 濟世CS 轉

第5章循环与分支程序设计  循环程序设计  分支程序设计.

第二章 CPU 一、CPU的基本概念二、CPU的发展历程三、影响CPU性能的因素四、CPU的接口分类

高效能運算服務（High Performance Computing）建置之經驗分享

電腦的種類超級電腦 (supercomputer) 大型電腦 (Mainframe) 迷你電腦 ( Mini computer)

計概作業陳承詳.

计算机组装、维修及实训教程第2章中央处理器 2018年11月19日星期一.

淘宝核心系统数据库组余锋利用新硬件提升数据库性能淘宝核心系统数据库组余锋

基于压缩算法的tile64多核处理器性能研究

HP Pro 2000 商用台式机 dx2310 HP Pro 2000 特性对比机箱芯片组 CPU 输入/输出插槽内存扩展仓显卡

資料來源:張弘明張迪安林欣螢吳柏農吳沛錡

嵌入式微处理器系统第二章处理器技术（1）北京大学软件与微电子学院.

TMT面临嬗变 —— “5.19”能否重演 IT分析师张小嘎 86－21－ ×2062

電腦的硬體架構.

移动系统中的Java虚拟机徐伟刚.

电脑配置单1 配件名称型号价格(元) CPU AMD双核速龙4000+（三年原盒） 510 散热器盒装自带 -- 主板

校園雲端輸出管理系統新印科技股份有限公司聯絡人：伍宏一電話： /

第2章计算机基本硬件介绍及选购 2.1 主板 2.2 中央处理器CPU 2.3 内存.

任务一：初识计算机任务二：学习计算机中的信息表示 P /4/7.

主流双核微处理器技术分析及性能对比陈丰李宏量孙瑜杰计算机体系结构课程论文课堂报告.

第 3 章、組合語言作者：陳鍾誠旗標出版社.

计算机系统结构（2012年春） ----存储层次： Cache基本概念

第5章循环与分支程序设计  循环程序设计  分支程序设计.

猜數字遊戲.

清华大学计算机科学与技术系高性能计算研究所郑纬民教授 2005年5月

日期：2009年10月22日報告單位：京年升電腦科技有限公司報告人：副總經理楊世豐 Power

第5章中央处理器 5.1 CPU的功能和组成 5.2 指令周期 5.3 时序产生器和控制方式 5.4 微程序控制器

Presentation transcript:

多核结构与程序设计杨全胜 http://www.njyangqs.com/ 东南大学成贤学院计算机系

课程内容及要求多核结构介绍并行计算基础进程、线程和并行程序设计要求掌握以Intel为代表的主流多核处理器的体系结构及操作系统的支持，了解多核带来的挑战。并行计算基础要求掌握并行编程模型，并行程序设计相关的问题，程序性能的优化方法，理解并行计算机存储结构，了解弗林经典分类。进程、线程和并行程序设计要求掌握线程设计、互斥与同步的概念和相关内容以及并行程序设计中的常见问题，理解进程和线程的概念。

课程内容及要求 Windows平台中的多线程程序设计 Windows 平台中的OpenMP编程技术 Intel多核程序设计与优化原理及工具要求熟练掌握Windows Thread API以及如何解决Windows平台多核程序设计中同步与互斥问题 Windows 平台中的OpenMP编程技术要求熟练掌握利用OpenMP进行并行程序设计的方法 Intel多核程序设计与优化原理及工具要求熟练掌握Intel的C++ Compiler， VTune，MKL，Thread Checker，Thread Profiler的使用。

参考书

参考书

参考书

参考书

参考书

多核概述内容为什么我们需要多核? 什么是多核? 多核结构 Intel® Dual-core介绍多核带来的挑战操作系统对多核处理器的支持方法

为什么我们需要多核？当计算机诞生的时候，程序是指令的串行序列。上世纪六十年代, 并发技术让多个用户能够同时使用单个主机。早期的个人计算机，操作系统是单用户操作系统每个时刻只能运行一个程序。

为什么我们需要多核？目前越来越多的任务需要同时执行每个任务（应用程序）都变的越来越复杂互联网应用变的无处不在用户对高性能处理器的期待越来越大

为什么我们需要多核？并行计算是解决高性能期待的最好办法计算需求不断增加基于硅的（串行）架构达到了处理限制的物理极限，又受制于：可视化、分布式数据库、模拟仿真、科学预测（地震）、大型网络活动等。基于硅的（串行）架构达到了处理限制的物理极限，又受制于：光速热力学硬件上诸如流水线、超标量等技术带来的改进是有限的，而且我们还需要复杂的编译器才能利用这些新技术。向量处理这类技术对某些特定的问题是有好处的。

为什么我们需要多核？并行计算是解决高性能期待的最好办法网络技术的重大进展铺平了基于网络的高效低价并行计算的道路。并行计算 InifiBand总线当前: 10,20Gb/s 节点到节点 30,60Gb/s 交换机到交换机并行计算是最好的克服单个处理器速度瓶颈的方法之一。具有好的性价比的小型集群并行计算机并行处理技术已经成熟并且已经商业化。

为什么我们需要多核？微架构的演进我们在这超长指令字（VLIW）同时多线程（SMT）推测执行，分支预测众核（Many core）多核（Multi core）流水线，无乱序流水线，乱序 4位数据 32位数据 64位数据 VLIW超长指令字 SMT , Simultaneous multithreading 同时多线程被Intel运用为超线程 CMP Chip multiprocessors,片上多核处理器,也指多核心超标量双核片上多核处理器（CMP）

为什么我们需要多核？如何提高处理器性能交付性能= 频率 * 每时钟指令数(IPC) 提高主频是传统的做法，但会带来高热量。提高每时钟指令数是又一种方法流水线技术超标量技术多核技术

为什么我们需要多核？多核的优势更好的响应速度更高的多线程处理能力在主流应用中，并行会带来好处增强用户在多任务环境中的体验

多核概述内容为什么我们需要多核? 什么是多核? 多核结构 Intel® Dual-core介绍多核带来的挑战操作系统对多核处理器的支持方法

什么是多核并发和并行计算并发: 对于软件来说是一种管理同时使用的共享资源的方法，是宏观同时，微观分时。并行计算: 涉及到同时使用多个计算机或处理器来执行一个程序。理想的情况下，并行处理会让程序运行的很快，因为有很多的引擎(CPU或core)在运行它。即使单核处理器的机器也能通过网络联系其他的计算机来进行并行处理。

什么是多核多核技术的演进超线程技术双核处理器多核处理器指令级并行数据级并行线程级并行单核处理器

什么是多核并行性指令级并行（ILP）在机器指令级上并行，突出各条指令之间的并行处理器能重排序，流水线化指令的执行，将指令化作微操作，做主动的分支预测等。指令级并行在过去的15年中使得处理器的速度快速提升。

什么是多核并行性数据级并行（DLP）在多个数据项上完成相同类型的算法和逻辑操作。典型的，执行单元宽度更宽（64位或者128位）处理32位的多媒体数据。多媒体、科学计算向量，SIMD

什么是多核并行性线程级并行 (TLP) 这是一种粗粒度的并行服务器可以为每个客户创建一个独立的线程为其服务（Web服务器，数据库服务器）一个计算机游戏可以在三个独立的线程中做AI，图形和物理仿真。单核超标量处理器不能完全利用TLP。多核结构是处理器发展的下一步：明确地使用TLP。单核超标量不能完全利用TLP是因为它可能并没有为多个线程提供多个独立的执行环境

什么是多核同时多线程 (SMT)，Intel的超线程(HT) 允许多个独立的线程在相同的核上同时执行在相同的核上交织着多个线程的执行实例: 如果一个线程在等待浮点操作的完成，其他的线程可以利用整型计算单元。同时多线程的处理器每个处理器（核）中有多个执行环境（如寄存器组，取指部件等），但共享一个执行引擎。

什么是多核片上多核处理器(Chip Multi-Processor，CMP) 将多个计算内核集成在一个处理器芯片中，从而提高计算能力。不同的核执行不同的线程（多指令），操作不同的存储部分（多数据）。 CPU核心数据共享与同步总线共享Cache结构：每个CPU内核拥有共享的二级或三级Cache，用于保存比较常用的数据，并通过连接核心的总线进行通信。基于片上互连的结构：每个CPU核心具有独立的处理单元和Cache，各个CPU核心通过交叉开关或片上网络等方式连接在一起。通常核数小于8是多核，大于8称为众核

什么是多核什么样的应用能从多核中获得好处？数据库服务器 Web服务器编译器多媒体应用科学应用, CAD/CAM 通常，利用线程级并行的应用程序

多核概述内容为什么我们需要多核? 什么是多核? 多核结构 Intel® Dual-core介绍多核带来的挑战操作系统对多核处理器的支持方法

多核结构 INTEL CORE DUO 一个封装中两个物理核每个都有自己的执行引擎每个有自己的L1 cache 32K 指令Cache和32K数据Cache 两个核共享L2 cache 2MB 8路组相联，每行64字节 10个时钟的延迟，写回策略

多核结构 AMD Opteron 分离的1MB L2 caches CPU0和CPU1 通过SRQ通信

多核结构

多核结构 SUN公司的UltraSPARC T1 8个CPU核每个核能同时运行4个线程所有的核通过高带宽(134.4GB/s)的交叉开关相连

多核结构 SUN公司的UltraSPARC T2 8个CPU核每个核能同时运行8个线程更大的存储器容量 > 512GB以上

多核结构 IBM的Cell 1 PPE (Power Processor Element) 8 SPE (Synergistic Processor Element) Cell集成了2亿3400万个晶体管，它采用IBM的90纳米SOI、Low -K工艺制造，核心面积为221平方毫米，芯片规模与Intel即将发布的双核Pentium D相当，两者的制造成本处于同一条水平线上。在逻辑上，Cell处理器基于一个“Power处理单元（Power Processor Element，下面简称为PPE）”，它可以支持SMT虚拟多线程技术，同步执行两个不相干的线程。此外，Cell内部还拥有八个基于SIMD的协处理器（Synergistic Processor Element，以下简称SPE），简单点说，一枚Cell处理器内部整合了九颗独立的运算核心，可支持多达十条线程的同步运行。另外，Cell还整合了 XDR内存控制器，可配合25.6GBps带宽的内存系统，而它的前端总线也采用96位、6.4GHz频率的FlexIO并行总线（原名称为 “Redwood”，RAMBUS公司所开发），这也是有史以来速度最快的计算机总线。 PPE/SPE：针对“简单任务”而设计。PPE处理单元是Cell的控制与运算中枢，它应该是以IBM的Power 4处理器为基础进行设计的，可支持同步多线程技术。该处理单元内置了32KB一级缓存和512KB二级缓存，其规格与同出一脉的PowerPC 970处理器极其类似。而在Cell中，真正负责浮点运算的应该是八个SPE协处理器。图5所示是SPE的逻辑结构，SPE由4个负责浮点运算的处理单元、4个负责整数运算的处理单元、128bit×128结构的寄存器和256KB局部缓存构成，它实际上就是一个完整的运算核心。根据IBM所公布的资料，我们获悉SPE的流水线长度为18级，这一点与X86处理器也非常不同—流水线越长，处理器提升工作频率就越容易，反之就越困难。20级流水线的 Northwood Pentium 4止步于3.2GHz，31级流水线的Prescott核心也不过到达3.8GHz，而Cell以18级的短流水线却实现4GHz以上的高频运作。设计者对此作出详细的解释：X86处理器必须完成大而全的运算功能，运算逻辑往往被设计得非常复杂，这也导致其频率提升非常困难；而Cell在基础架构上执行简单化的计算思想，每一个复杂的任务都可以被分解为多个简单的基础任务，Cell中的SPE就专门针对这些基础任务所设计，这样，它就可以在保持高效的同时拥有简单得多的逻辑结构，既然逻辑构成简单，实现高频率运作就没有什么悬念。从这里也可看出，Cell与X86处理器最大的不同，还是在于它们对计算任务的不同理解。　　尽管总线及寄存器都是128位结构，但SPE内的浮点单元和整数单元其实都只有32位，只是IBM通过4路并行运算来获得128bit SIMD的效果，从外部看来，SPE便相当于一个可执行128bit指令的处理单元。SPE内的浮点单元和整数单元各自拥有三条128bit宽度的输入总线和一条128bit宽度的输出总线，二者以全双工模式运作，数据输入/输出操作可同步进行。大家应该也发现这是一套不对等的方案，输入总线的带宽三倍于输出总线，原因在于计算所需的数据总量总是比运算的输出结果要多得多，总线宽度不同在设计上其实非常科学。而借助这两条总线，SPE协处理器的整数/浮点运算单元再与一组包含128个、宽度为128bit的寄存器阵列联结在一起，该寄存器阵列又通过一对全双工运作的、128bit总线同本地缓存（Local Store）相连—每个SPE协处理器都拥有256KB本地缓存，8个SPE就一共拥有2MB缓存，再加上PPE处理单元的512KB二级缓存，Cell 处理器总共拥有超过2.5MB容量的缓存单元，对于一款拥有超级计算效能的处理器来说，如此低的指标同样令人感到诧异。　　分析完PPE与SPE协处理器的内部设计，我们再来看看它们是以何种方式组成Cell的。参见前面的图4，我们可以看到Cell内部有一条 768bit位宽的“EIB单元互联总线环（Element Interconnect BUS Ring，EIB Ring）”，它实际上是一个强大的内部总线控制逻辑—Cell内所有的功能单元都通过EIB总线环连接在一起，包括PPE、八个SPE、XDR内存控制器以及外部总线接口，它们所采用的无一例外都是全双工的128bit连接总线。若Cell工作在4GHz频率上，Cell内部的各个功能单元便都拥有 4GHz×128bit／Hz×2（全双工）÷8Byte/bit＝128GBps带宽，这样的数字显然是非常可观的。　　我们很容易能根据这些参数计算出Cell拥有的运算效能：每个SPE协处理器拥有4路并行的整数/浮点单元，一个时钟周期可执行两个运算周期（类似DDR效果、技术细节未明），每个运算周期又可执行4次32位浮点运算；每个Cell拥有8枚SPE协处理器，它的工作频率假设在4GHz，此时 Cell所具有的浮点效能就是2×4×8×4GHz＝256Gigaflops，这应该很好理解。　　与常规的双核处理器不同的是，Cell内的九个核心具有相当强的独立性。其中，PPE处理单元的任务是运行操作系统，这个任务对于一个结构类似 PowerPC 970、频率高达4GHz且可支持双线程运作的处理核心来说简直不费吹灰之力。但除了操作系统外，PPE不管任何的事情，应用程序相关的线程运算完全由 SPE协处理器运行。如图6所示，我们可以看到多个应用程序的线程会被平均散布到各个SPE中，整套系统负载均衡、设计得非常科学。而这种纵向结构的多核心设计同X86业界鼓吹的双核处理器截然不同，不论是Pentium D、Yonha还是AMD的双核心Athlon 64，它们的每个处理内核地位对等、每个核心都可以独立完成全部运算，所体现的是一种大而全的计算思想。由于芯片设计越来越复杂，它的工作频率就不得不走了下坡路，Intel当年执著于高频制胜的策略，结果落后于对手，业界普遍认为追求高频率的做法没有前途。而Cell处理器开辟出前所未有的新思路：每个处理内核专注于自己的任务，彼此相互依赖、相互协作，针对任务的简单化也使得每个内核都可以被设计得精简高效，工作频率也轻易达到X86处理器无法企及的高度，最终实现了媲美超级计算机的惊人性能。而在相互协作的同时，Cell内的各个SPE协处理器又保持着高度独立性，除了完成本机的计算任务外，SPE 还可以接受来自Cell计算网络中其他设备的计算请求，并执行相关的计算任务，所得结果再通过网络传输给任务发起者。换句话说，SPE协处理器可以在基于 Cell的计算网络中作平台无关的无缝漫游，网络上的任务可以被均匀分散到所有的Cell处理器上，并以最佳方式在最短的时间内完成。在看完上述分析之后，你一定会以为Cell将是一个功耗大户，在看到详细资料之前，笔者也是抱这种态度。IBM所公布的资料再度让人大吃一惊，当工作频率为4GHz时，每个SPE协处理器的工作电压高于1.1V，但其功耗仅仅只有4瓦。若频率降到3GHz，工作电压只需要0.9V，此时其功耗只有 2瓦。如果将频率降低到2GHz，每个SPE的功耗仅有区区1瓦。那么，Cell内所有SPE协处理器的功耗总和最高也不过4瓦×8＝32瓦。至于PPE 处理单元的核心部分，功耗水平也会控制在很低的水平，合乎逻辑的估计是Cell运算部分的功耗水平会在40瓦左右，即便加上缓存单元整体功耗也可控制在较好的水平上。回过头再来看看功耗将高达130瓦、性能不到Cell十分之一的Pentium D，大家会有什么感受？　　考虑到实际应用，Cell的低功耗并不令人吃惊。Cell本来就是为PS3游戏机所设计，而游戏机体积狭小，对芯片的功耗指标颇为敏感，指标过高将给散热带来难题且会产生较高的噪音，这是玩家们绝对无法承受的。在2006年，IBM将采用更先进的65纳米技术来制造Cell，届时它将具有更加出色的功耗水平，而低功耗也为Cell的广泛应用奠定了良好的基础，将它用于嵌入式设备、笔记本电脑、桌面PC还是工作站系统中都没有任何问题，IBM今后所需要关心的，应该是操作系统和应用软件方面的资源配合。

多核结构 Tilera公司的Tile64 64核 RISC 19.2W 所有的核通过MESH链接一个核500Gb/s, 所有核 32Tb/s. 每个核都能执行操作系统

多核结构 Intel的Larrabee 多个按序x86 CPU核被扩充为更宽的向量处理器在片上的保持一致性的2级Cache

多核结构 Intel的Sandy Bridge

多核概述内容为什么我们需要多核? 什么是多核? 多核结构 Intel® Dual-core介绍多核带来的挑战操作系统对多核处理器的支持方法

Intel® Dual-core介绍

Intel® Dual-core介绍新技术宽位动态执行技术高级数字媒体增强技术智能内存访问技术智能功效管理

Intel® Dual-core介绍宽位动态执行从取指开始 4+条指令/时钟比其他的x86处理器提高>33% 指令转换成微操作

Intel® Dual-core介绍宽位动态执行 4路寄存器重命名 4路微代码 4路重排序更深的乱序存储缓冲

Power = Cdynamic* V * V * Frequency Intel® Dual-core介绍宽位动态执行交付性能 = 频率 * 每时钟指令数 (IPC) Power = Cdynamic* V * V * Frequency 每条指令转换成更少的微操作允许在动态电容下降的情况下，提高IPC，因为更少的位就意味着更少的触发器。

Intel® Dual-core介绍宏融合将常见的x86指令对组合到一个单独的微代码中。为宏融合而增强的算术逻辑单元举例 Instruction Queue 宏融合将常见的x86指令对组合到一个单独的微代码中。 CMP或TEST + 条件转移 (Jcc) 为宏融合而增强的算术逻辑单元单个发射 - 效率单周期执行 - 性能举例 add ecx, 1 mov [mem1], ecx mov eax, [mem1] cmp eax, [mem2] jge label 此页举例没有宏融合的情况 5条语句需要2个周期完成 Cycle 1 add ecx, 1 dec0 mov [mem1], ecx dec1 for (unsigned int i=0; i<100000; i++) { … } mov eax, [mem1] dec2 cmp eax, [mem2] dec3 Cycle 2 jge label dec0

Intel® Dual-core介绍宏融合将常见的x86指令对组合到一个单独的微代码中。为宏融合而增强的算术逻辑单元举例 CMP或TEST + 条件转移 (Jcc) 为宏融合而增强的算术逻辑单元单个发射 - 效率单周期执行 - 性能举例 Instruction Queue add ecx, 1 mov [mem1], ecx mov eax, [mem1] cmp eax, [mem2] jae label 此页举例使用宏融合的情况 5条语句只需要1个周期完成，因为cmp指令和jae指令进行了宏融合 TEST 可以融合所有的条件跳转指令. CMP 只能融合下列条件跳转指令（Core中） JA (and its equivalent, JNBE) JAE (equivalent JNB) JE (JZ) JNA (JBE) JNAE (JC or JB) JNE (JNZ) In this case, CMP will be fused with JAE while not with JGE Cycle 1 add ecx, 1 dec0 for (unsigned int i=0; i<100000; i++) { … } mov [mem1], ecx dec1 mov eax, [mem1] dec2 cmpjae eax, [mem2], label dec3

Intel® Dual-core介绍宽位动态执行微代码融合（Micro-op fusion）技术能在微代码执行前将译码自同一个x86指令的几个常见微代码对融合成一个微代码 u-ops of a Store “mov [mem1] ,edx” sta mem1 Sta是获取地址，std是存数据，他们是mov edx, [mem1]指令译码出来的两个微代码，由于它们基本上都是配对出现，所以将它们融合成一个微代码st 这两个微代码是有数据相关的，所以它们需要两个时钟周期分别进同一个流水线，但融合成一个微代码后只需要一次进流水线了 st [mem1] , edx std [mem1] ,edx 微代码融合有效地“加宽”了流水线

Intel® Dual-core介绍 Intel® 数字媒体增强 2x计算量/时钟 128位压缩数据乘法 128位压缩数据加法 128位压缩数据读取 128位压缩数据存储 CMPJCC的宏融合

Intel® Dual-core介绍 Intel®智能内存访问目标内存消歧技术改善指令预取部件 WHEN – 确信数据能在最早的时候被取出并准备好 WHERE – 确信要使用的数据靠CPU最近内存消歧技术改善指令预取部件

Intel® Dual-core介绍 Intel®智能内存访问没有内存消歧技术时Load4只能等待前面所有Store结束内存消歧- 解决WHEN的问题利用装载（load）数据指令和存储（store）数据指令之间的乱序执行来提高推测执行部件的效率，其原则是尽量将load指令提到它前面不冲突的store指令之前执行。 Memory Data W Store1 Y Load2 Y 内存消歧技术可以使需要用的数据被提前装载，以便能快速使用。一旦预测失败，内存消歧技术能检测到地址冲突，并重新装载数据，重新执行该Load操作，不过这种情况出现的概率很小。 Data Z Store3 W Load4 X Data Y 没有内存消歧技术时Load4只能等待前面所有Store结束这样做究竟有什么好处？下面来看有内存消歧技术的情况先乱序 Data X

Intel® Dual-core介绍 Intel®智能内存访问改进预取部件 – 解决WHERE的问题确保被使用的数据已经位于最靠近能获得最小内存延迟的地方。用独立于流水线的预测器预测将来要用的数据，提前取到Cache中 L1D是3 clk的延迟和1 clk的通过时间; L2是14和2 clk Cache失效延迟 L1 失效后去读 L2 ~ 10 cycles L2 失效, 存取存储器 ~300 cycles (server/FBD) L2 失效, 存取存储器 ~165 cycles (Desk/DDR2) Cache 带宽 Cache带宽 ~ 8.5 bytes/cycle 存储带宽桌面系统 ~ 6 GB/sec/socket (linux) 服务器 ~3.5 GB/sec/socket 举例远近是由在该存储体上读取数据的带宽和延迟大小作为衡量标准的。

Intel® Dual-core介绍高级智能Cache 共享的L2Cache是L1 caches的两倍带宽 AS 执行引擎 Local APIC L2 Cache 总线接口前端总线 AS AS 执行引擎执行引擎 Local APIC Local APIC 果Cache不是共享的，如果两个核使用同一个数据则需要在前端总线中进行传递，增加了前端总线的负担，而共享cache的连个核不存在这个问题 Cache Line L2 Cache Cache Line L2 Cache 总线接口总线接口前端总线

Intel® Dual-core介绍智能功效管理超细粒度功耗控制分离总线功效管理的平台化结构即使在高性能执行的时候，核的很多部分还是能够关闭的。能够只对处于工作状态的部件提供电源，而关闭非工作部件的电源供应，从而有效降低功耗。分离总线能够使总线宽度动态适应数据宽度的需要，对无效的信息位使其进入低电压状态，从而进一步降低功耗。功效管理的平台化结构 PSI-2 功耗状态指示(移动领域) DTS 数字热传感器 PECI 平台环境控制接口

Intel® Dual-core介绍 Intel多核处理器体系结构相关的程序优化尽量避免使用具有“改变长度的前缀”的指令，因为它会增加指令译码时间因指令队列中有循环检测器，所以要注意和常规程序优化中的循环展开取得折中，避免互相抵消译码优化，四个译码器一个是复杂指令译码器，三个简单指令译码器，最好以此配对指令因每个时钟周期最多可有6条微操作发射到执行单元，所以尽量将单时钟周期就能执行完的微操作和需要多个时钟周期才能完成的微操作分开指令队列中的循环检测器（LCP）能避免将循环体中的指令重复解码，提高了指令流的执行带宽。

多核概述内容为什么我们需要多核? 什么是多核? 多核结构 Intel® Dual-core介绍多核带来的挑战操作系统对多核处理器的支持方法

多核带来的挑战对程序员的挑战从单核程序员变成多核程序员利用多核处理器提高程序的效率并行程序设计的挑战同步通信负载均衡可扩展性

多核带来的挑战对操作系统的挑战处理器之间的相关性线程与进程的调度 Cache一致性处理器之间的通信核内的资源竞争问题如何处理中断

多核概述内容为什么我们需要多核? 什么是多核? 多核结构 Intel® Dual-core介绍多核带来的挑战操作系统对多核处理器的支持方法

操作系统对多核处理器的支持方法调度与中断对任务的分配进行优化。使同一应用程序的任务，尤其是具有共享数据的任务尽量在一个核上执行。没有共享数据或者只有少量共享数据的任务在不同核上执行，这样可以显著降低Cache缺失率。对任务的共享数据优化。由于CMP体系结构共享二级缓存，可以考虑改变任务在内存中的数据分布，使任务在执行时尽量增加二级缓存的命中率。对任务的负载均衡优化。当任务在调度时，出现了负载不均衡，考虑将较忙处理器中与其他任务最不相关的任务迁移，以达到数据的冲突量小。

操作系统对多核处理器的支持方法输入输出系统存储管理与文件系统利用APIC来处理来自各方的中断接收来自处理器中断引脚的中断，并将它们发送给处理器核处理允许处理器核将自己不处理的中断转发给其它核接收和转发来自其它核的核内中断到其它核存储管理与文件系统为使用多核运算能力，库函数改用无阻塞调用方式用事物内存管理在并行运行同时，保证数据的同步使用多线程内存管理，降低Cache冲突，提高效率

附录返回乱序执行技术为了提高指令流的执行效率，乱序执行核心分析多条指令的数据相关性和资源可用性，然后在不损失数据完整性的前提下，采用能充分发挥多个处理部件并行工作的指令顺序来执行。这个指令顺序可能和原始程序的不一样。非乱序执行演示乱序执行演示 R=F-7 R=F-7 执行方向执行方向 Q=D-E Q=D-E P=A*2 P=A*2 A=B+C A=B+C 流水1 流水2 流水1 流水2

附录分支预测推测执行预测分支未来的方向，为处理器预先译码分支之后的指令提供依据静态分支预测动态分支预测返回分支预测预测分支未来的方向，为处理器预先译码分支之后的指令提供依据静态分支预测预测无条件转移指令发生分支预测向前分支的条件转移指令不发生转移预测向后分支的条件转移指令发生转移动态分支预测使用分支目标缓冲器BTB记录分支转移历史信息推测执行在分支预测基础上，推测分支路径，并按推测执行。