华南理工大学 陈虎 博士 tommychen74@yahoo.com.cn 多核处理器技术 华南理工大学 陈虎 博士 tommychen74@yahoo.com.cn.

Slides:



Advertisements
Similar presentations
《微型计算机技术 及应用》 ( 第 4 版) —— 戴梅萼 史嘉权. 目标 深刻理解 牢固掌握 灵活应用.
Advertisements

嵌入式系統 資工系 魏 凱 城. 什麼是嵌入系統 提到 CPU 我們很直覺的會聯想到 PC ,但事實上 CPU 的應用領域、範圍及採用的數量都遠遠超過 PC 的範疇。 提到 CPU 我們很直覺的會聯想到 PC ,但事實上 CPU 的應用領域、範圍及採用的數量都遠遠超過 PC 的範疇。 以數量來看 x86.
教员信息 姓 名:仲崇权 单 位:电子与信息工程学院 电 话: 办公室:创新院大厦720房间 :
第 10 章 電腦網路.
Welcome to the world of Computer Organization 计算机组成原理
嵌入式系统 主讲人: 赵宏伟 学时: 32 吉林大学计算机科学与技术学院.
先介绍计算机网络基础知识,再分析网络视频监 控系统的架构、原理与维护。
第 2 章 中央處理單元.
多核结构与程序设计 杨全胜 东南大学成贤学院计算机系.
第二部分 嵌入式硬件系统 第2章 嵌入式处理器 第3章 ARM内核与ARM处理器 第4章 嵌入式系统的外围设备.
第一章 多核概述 使用多核了吗? 摩尔定律——芯片的晶体管数量每一年半左右增长一倍。 处理器性能不断提高主要基于两个原因:
赵永华 中科院计算机网络信息中心 超级计算中心
NEUSOFT Institute of information Technology .ChengDu
第二章 微型计算机系统 第一节 基本术语和基本概念 第二节 计算机系统的基本构成 第三节 微机系统的硬件组成 第四节 微机系统的软件组成.
微型计算机技术及应用 王 健 主讲 授课学时:40学时 大连理工大学计算机系.
組裝電腦DIY 前言:提供基礎的電腦零件組裝教學,對於個人電 腦零件有基本的認識、並有組裝零件使電腦能運 行的能力、能親手 升級自己想要的零件、及基 本的簡易判斷無法開機的原因;最後並提供實做,親手DIY將電腦組裝起來並安裝作業系統。 對象:對電腦組裝沒概念或一知半解者;想要能自己解決電腦無法開機,或是能自己升級想要的專屬電腦配備;可以當家庭的電腦醫生不想電腦一碰到問題就叫修花錢者;自己是電腦軟體方面的工作者,想要增加自己的競爭實力.
第一章 计算机基础知识 计算机的发展简史 1 计算机软件系统 6 计算机的定义和分类 2 微型计算机的组成 7 计算机的特点和用途 3
信息科学与工程学院计算机科学系 2006年9月—2007年1月
第11章 计算机系统 计算机系统概述 分类方法、计算机系统性能评测方法 2. 微机系统 3. 他体系结构处理机
IP路由查找.
最新計算機概論 第3章 計算機組織.
第8章 机床操作 主讲:臧红彬 博士.
第 1 章 資訊新未來.
单片机原理与应用.
第一章 计算机基础知识 第一节 计算机概述 一、计算机的基本组成和工作原理 二、有关术语 三、计算机发展简史 四、微型计算机概述
答疑时间:周二1、2节及下午 答疑地点:信息与计算机学院(行政楼518) 素材及答疑网址: 李智敏
報告人:王月杏 行動電話 台南市 九十九年度電腦維運相關事宜 報告人:王月杏 行動電話
99年台南市中小學電腦維運 --招標結果暨配發說明
IP路由器.
第7章 表單的使用介面 7-1 表單的基礎 7-2 使用精靈建立表單 7-3 表單視窗的檢視模式 7-4 表單的基本使用
2006年10月 面向数据处理的高端系统 胡雷钧 浪潮公司.
CH.2 Introduction to Microprocessor-Based Control
型號 – ASUS F3APT2YDD 規格 型號:ASUS F3APT2YDD-FBQCCCA 處理器:Intel Core Duo T2060 最新65奈米製程(1.6GHz,533MHz FSB ,2MB L2 Cache) 記憶體:1GB DDRII 螢幕:15.4" WXGA 鏡面寬螢幕.
第 2 章 中央處理單元.
第一章 嵌入式系统开发基础 本章介绍了嵌入式系统开发的基础知识,从嵌入式计算机的历史由来、嵌入式系统的定义、嵌入式系统的基本特点、嵌入式系统的分类及应用、嵌入式系统软硬件各部分组成、嵌入式系统的开发流程、嵌入式技术的发展趋势等方面进行了介绍,涉及到嵌入式系统开发的基本内容,使读者系统地建立起的嵌入式系统整体概念。
電腦硬體基本介紹 國立高雄大學資訊工程學系 林士倫 2010/10/21.
第8章 现代微型计算机 x86系列微处理器 8.2 微型计算机体系结构 8.3 存储管理技术 8.4 多任务管理与I/O管理
CPU資料處理 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
高效能運算服務 (High Performance Computing) 建置之經驗分享
主講:王穎聰 電腦與通訊工程學系講師 銘傳大學資訊網路處
C H A P T E R 10 存储器层次.
1-1 微電腦系統單元 1-2 微電腦系統架構 1-3 微控制器(單晶片微電腦) 1-4 類比與數位訊號介面
1-1 微電腦系統單元 1-2 微電腦系統架構 1-3 微控制器(單晶片微電腦) 1-4 類比與數位訊號介面
基于压缩算法的tile64多核处理器性能研究
GPU分散式演算法設計與單機系統模擬(第二季)
5 Computer Organization (計算機組織).
微机原理及单片机接口技术 电话: Tel:84192 山东大学生物医学工程.
使用多級倍壓脈波產生器之新型電荷幫浦 半導體元件研究室 原理與分析 摘要
計算機結構 – 概論 陳鍾誠 於金門大學.
緣由 由於積體電路(Integrated Circuit, IC)製造技術的精進,系統設計已由運用個別積體電路功能整合的方式進步至系統晶片(System-on-a-Chip, SoC) 設計的世代。原本分屬不同設計範疇的類比(Analog)積體電路設計與數位(Digital)積體電路設計已經必須同時整合,而進入新的混合訊號(Mixed-Signal)積體電路設計的世代。
华南理工大学 陈虎 博士 CUDA编程模型 华南理工大学 陈虎 博士
单片机应用技术 项目一 循环彩灯装置 第2讲 51单片机的结构与引脚 《单片机应用技术》精品课程组 湖北职业技术学院机电工程系.
嵌入式系統概論-以S3C2440核心為架構 第1章 嵌入式系統概念.
胡維平 國立中正大學化學暨生物化學系 Aug. 30, 2017
電腦的硬體架構.
校 園 雲端輸出管理系統 新印科技股份有限公司 聯絡人:伍宏一 電 話: /
计算机系统结构 第一章 基本概念 第二章 指令系统 第三章 存储系统 第四章 输入输出系统** 第五章 标量处理机 第六章 向量处理机
計算機概論 第3章 計算機組織與結構概觀.
第一章 微型计算机概论 本章内容提要: 微型计算机系统的基本术语 微型计算机系统的发展与分类 微型计算机的系统组成.
電子計算機概論(一) 面授教師:陳溪泉 Tel: Mobile: Add: 台中市永春東一路782-5號.
网络系统设计与网络处理器 主讲:华蓓 实验室:电一楼(安徽省计算与通讯软件重点实验室) 电话:
宣城职业技术学院 项目一 了解计算机文化 计算机教研室 院级精品课程.
主流双核微处理器 技术分析及性能对比 陈丰 李宏量 孙瑜杰 计算机体系结构课程论文课堂报告.
第二章 電腦硬體知識 Chapter 2-電腦硬體知識.
计算机系统结构(2012年春) ----存储层次: Cache基本概念
微机原理与接口技术 课程性质:专业技术必修课程 课程的特点:偏重硬件,软硬件结合 先修课程:导论、数字逻辑、组成原理、汇编语言等
ARM處理器.
BiCuts: A fast packet classification algorithm using bit-level cutting
清华大学计算机科学与技术系高性能计算研究所 郑纬民 教授 2005年5月
緣由 由於積體電路(Integrated Circuit, IC)製造技術的精進,系統設計已由運用個別積體電路功能整合的方式進步至系統晶片(System-on-a-Chip, SoC) 設計的世代。原本分屬不同設計範疇的類比(Analog)積體電路設計與數位(Digital)積體電路設計已經必須同時整合,而進入新的混合訊號(Mixed-Signal)積體電路設計的世代。
Presentation transcript:

华南理工大学 陈虎 博士 tommychen74@yahoo.com.cn 多核处理器技术 华南理工大学 陈虎 博士 tommychen74@yahoo.com.cn

参考文献 [1] Tom R. Halfhill,Intel Goes Quad, Issue #234,Processor Watch,Oct. 19, 2006 [2] Cameron McNairy, Rohit Bhatia, MONTECITO: A Dual-Core, Dual-Thread ITANIUM Processor, IEEE Mirco, Mar./Apr., 2005 [3]Ron Kalla,Balaram Sinharoy, Joel M. Tendle, IBM POWER5 CHIP: A Dual-Core, Multithreaded Processor, IEEE Micro, Mar./Apr., 2004 [4] Poonacha Kongetira, Kathirgamar Aingaran, Kunle Olukotun, NIAGARA: A 32-way Multithreaded SPARC Processor, IEEE Micro, Mar./Apr., 2005 [5] Toshinari Takayanagi, Jinuk Luke Shin, ect., A Dual-Core 64-bit UltraSPARC Microprocessor for Dense Server Applications, IEEE JOURNAL OF SOLID-STATE CIRCUITS, Vol.40(1):7-18, JAN. 2005 [6] Intel Corp., Intel IXP2400 Network Processor Product Brief, www.intel.com,2003 [7] Motorola Inc., Motorola C-5 Architecture Guide, www.motorola.com, 2001 [8] John Montrym, Henry Moreton, THE GEFORCE 6800, IEEE Micro, Mar./Apr., 2005 [9] J. A. Kahle, etc., Introduction to the Cell multiprocessor, IBM J. RES. & DEV. VOL.49(4/5):589-604, JULY/SEP., 2005 [10] Ujval J. Kapasi, etc., Programmable Stream Processors, IEEE Computer, Aug.,2003 [11] Tom R. Halfhill,Ambric's New Parallel Processor, Issue #234 - Processor Watch - October 19, 2006 [12] Sriram Vangal, Jason Howard, etc., An 80-Tile 1.28TFLOPS Network-on-Chip in 65nm CMOS, IEEE International Solid-State Circuits Conference, 2007

微处理器技术发展的主要历史回顾 90年代——增大指令的并行发射能力 90年代末期——提高主频 指令级并行性自身存在很大限制,超标量技术已经到了尽头; VLIW(超长指令字)存在二进制代码不兼容,对编译要求高的缺点; 90年代末期——提高主频 流水线不断细化,指令间相关性导致系统复杂性大大提高; Memory Wall,存储器性能滞后,严重影响整体性能; 功耗问题严重;

微处理器技术发展的主要历史回顾 本世纪前5年——多线程 当前和未来五年——多核 只能屏蔽线程的存储器访问延迟,增加系统吞吐率(15%左右),并未提高单个单线程的执行速度; 当前和未来五年——多核 充分利用摩尔定律带来的芯片面积,放置多个微处理器内核; 通过开发程序内的线程级或进程级并行性提高性能

典型的多核处理器系统 通用处理器: 网络处理器 嵌入式系统 图像处理 多媒体处理 实验系统 Intel——Xeon 5300 (四核) IBM——POWER5(双核) SUN——NIAGARA(8核)、UltraSpac(双核) 网络处理器 Intel——IXP2400 Motorola——C-5 嵌入式系统 TI——OMAP,Davinci ARM——ARM11MP 图像处理 Nvdia——GF6800 多媒体处理 IBM,Sony和Toshiba——Cell处理器 Stanford大学——Imagine 实验系统 Ambric——AM2045(360核) Intel——80个核的实验处理器

多核处理器系统中的主要问题 互连结构如何? 并行程序设计模型如何? 每个处理器地址空间的关系怎样? 存储器层次如何划分? 如何保持存储器的一致性? 并行程序设计模型如何? 互连结构如何?

存储器结构——cc-UMA cache-coherence Unified Memory Access 所有CPU共享一个统一的地址空间;有单独的L1 Cache; 采用多级Cache结构; 采用总线或者Crossbar作为互连结构; 使用Cache一致性协议维护数据一致性; 采用多线程或者多进程作为并行软件设计方法 CPU0 CPU1 … CPUn L1 Cache L1 Cache L1 Cache L1 Cache L2, L3 Caches Maim Memory

SUN’s NIAGARA 8个4线程处理器通过crossbar连接到4个L2 Cache L1 Cache: Cache一致性协议: 16KB for Instructions 8KB for Data Cache一致性协议: 在L2 Cache建立L1 Cache的tag shadows 读不命中时,根据L2 Cache的tag shadow寻找合适数据; 写数据时,无效所有具有此拷贝的L1 Cache。

ARM’s ARM11MP 多个ARM11核有独自的L1 Cache 通过Snoop Control Unit实现Cache 一致性协议: 保持了L1 Cache物理地址的Tag 采用MESI( Modified, exclusive, shared, invalid)协议

cc-UMA的评价 优点: 缺点: 结论 硬件实现数据一致性协议,软件不需要关心; 多线程/进程的并行软件资源丰富; Cache一致性协议的性能和面积开销; Cache一致性协议可能对互连结构有特殊要求,例如侦听协议需要总线结构,影响了互连结构主频和数据宽度; 总线或Crossbar难以支持更多的处理器; 结论 适用于通用计算 连接的处理器数目受到限制

Connection Achitecture 存储器结构——异构多处理器 系统中的处理器类型不完全一致 典型配置是一个RISC处理器+一个或多个DSP 每个处理器有独自的Cache 地址空间不完全重叠 数据一致性由软件/硬件协同完成 CPU0 CPU1 … CPUn L1 Cache L1 Cache L1 Cache L1 Cache Connection Achitecture Maim Memory

存储器结构——LM Local Memory 每个从CPU(SCPU)仅能访问局部存储器 主处理器(MCPU)将各个局部存储器作为全局地址映射的一个部分 采用环行、流水线等互连结构; 硬件提供简单的数据一致性方法(如DMA一致性) 由软件控制一致性 MCPU SCPU0 … SCPUn Cache LM LM LM Connection Architecture Maim Memory

IBM’s Cell 主CPU——64bit PowerPC 从CPU——8个SPE,包含: 32K L1Cache 地址空间包括所有的局部存储器和主存 从CPU——8个SPE,包含: 4个并行可执行单元; 128KB局部存储器 仅能直接访问局部存储器,需要通过DMA访问其它局部存储器或者主存

IBM’s Cell 四路环行连接; 集中式仲裁; 数据宽度16字节/环; 主频1.6GHZ 峰值传输带宽204.8Gbps 通过DMA实现数据交换; 有全局唯一的DMA地址一致性检查部件

Intel的80核处理器 单个处理器上集成了80个处理单元 80个处理器单元按照10×8的mesh结构连接 采用65nm工艺实现 主频4GHZ 性能达到TFLOPS

Intel的80核处理器 每个处理单元包含: 两个浮点乘加器(FMAC) 寄存器文件 2KB数据存储器 3KB指令存储器 五方向路由节点(Router)

Nvidia’s GeForce6800 多级专用处理器 流水线方式连接 每个处理器有局部存储器或寄存器组

LM结构的评价 优点: 缺点: 适合于特定的应用 局部存储器与处理器核紧密耦合,存储器带宽高; 数据一致性检查机制比较简单,开销大幅度小; 面向应用和针对芯片布局设计的连接拓扑结构,提高处理器核之间互连通道的频率和带宽。 缺点: 局部存储器的空间有限,使用和调度完全需要软件控制,这直接造成了软件设计的难度,难以继承业已存在的丰富软件资源。 适合于特定的应用

Intel® Multi-core 独立L2 Cache,独立外部存储器接口 共享的L2 Cache和外部存储器接口

Intel® Multi-core 独立L2 Cache,共享存储器接口 独立L2 Cache和L3 Cache, 共享存储器接口

多核时代对软件设计的挑战 在单个芯片上集成了众多处理器核,软件人员如何能发挥出它们的性能优势,试想一下在有100个处理器核上编写程序? 答案在于程序的并行化!

程序并行化的主要途径 通过编译技术将串行程序并行化 设计全新的并行程序设计语言 串行语言加并行库或伪注释制导语句的扩展 自主设计并行化程序 目前并行编译技术对线程级、任务级的并行化尚处于起步阶段 设计全新的并行程序设计语言 这需要全部改写原来的程序,工程量巨大 串行语言加并行库或伪注释制导语句的扩展 增加一个库或一些新的制导语句来帮助进行并行化和并行 自主设计并行化程序