Architecture and Systems 研究群 報 告 人:單智君 陳昌居 鍾崇斌 中華民國95年11月30日

Slides:



Advertisements
Similar presentations
1 Java 语言程序设计 计算机系 鲍金玲. 2 引子 甲骨文 甲骨文是全球最大的信息管理软件及服务供应商,成立于 1977 年,公司总部 设在美国加利福尼亚州的红木城( Redwood Shores ),全球员工达 名, 包括 名开发人员、 7500 多名技术支持人员和.
Advertisements

嵌入式系統 資工系 魏 凱 城. 什麼是嵌入系統 提到 CPU 我們很直覺的會聯想到 PC ,但事實上 CPU 的應用領域、範圍及採用的數量都遠遠超過 PC 的範疇。 提到 CPU 我們很直覺的會聯想到 PC ,但事實上 CPU 的應用領域、範圍及採用的數量都遠遠超過 PC 的範疇。 以數量來看 x86.
1 I/O 设备访问方式和类型. 2 Overview n The two main jobs of a computer: l I/O (Input/Output) l processing n The control of devices connneted to the computer is.
什么是SOPC: SOPC是英文System On a Programmable Chip的缩写,称为片上可编程系统。SOPC将传统的EDA技术、计算机系统、嵌入式系统、数字信号处理等融为一体,综合了各自的优势,且在结构上形成一块芯片。 为什么用SOPC:SOPC是现代电子技术和电子系统设计的发展趋势,建立了电子系统设计的新模式。用户利用SOPC开发平台,自行设计高速、高性能的DSP处理器、特定功能的CPU及其外围接口电路,创建结构最为简洁的电子系统。
程序的执行 程序执行和指令执行概述 数据通路基本结构和工作原理 流水线方式下指令的执行
第 2 章 中央處理單元.
第二部分 嵌入式硬件系统 第2章 嵌入式处理器 第3章 ARM内核与ARM处理器 第4章 嵌入式系统的外围设备.
第1章 Java语言概述.
第二章 微型计算机系统 第一节 基本术语和基本概念 第二节 计算机系统的基本构成 第三节 微机系统的硬件组成 第四节 微机系统的软件组成.
CHAPTER 9 虛擬記憶體管理 9.2 分頁需求 9.3 寫入時複製 9.4 分頁替換 9.5 欄的配置法則 9.6 輾轉現象
102-1 Under-Graduate Project FFT
第2章 SOPC硬件开发环境及流程.
最新計算機概論 第3章 計算機組織.
新世代計算機概論 第3章 電腦的系統單元.
悠遊卡與行動支付 悠遊卡公司 通路事業部 經理 黃士展 2016/05/23.
為什麼要參加實習 接觸業界最新技術 了解職場技術所需 接近正職員工的薪資待遇 提前佈局自己的職場未來 投資自己的專業技術與人脈
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
Operating System CPU Scheduing - 3 Monday, August 11, 2008.
YARN & MapReduce 2.0 Boyu Diao
电工电子实验中心.
Hardware Chen Ching-Jung
Chapter 5 電腦元件 目標---- 研讀完本章後,你應該可以: 閱讀有關電腦的廣告以及了解它的專業用語(行話)。
第 2 章 中央處理單元.
直流无刷电机驱动方案介绍 朱益杉 2018年5月24日 Power density: TECRT.
異質計算教學課程內容 「異質計算」種子教師研習營 洪士灝 國立台灣大學資訊工程學系
臺北市立大學 資訊科學系(含碩士班) 賴阿福 CS TEAM
計算機概論 第4章 從主機板看電腦的世界.
高等计算机系统结构 VLIW/EPIC 基于静态调度的ILP (第五讲) 程 旭 2011年4月16日.
Quiz 3 假设各种分支占所有指令数的百分比如下表所示:
CPU資料處理 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
ARM存储器结构 ARM架构的处理器的存储器寻址空间有4G字节 ,存储空间可以分为 :
Chapter 2. The Graphics Rendering Pipeline 图形绘制流水线
電腦的種類 超級電腦 (supercomputer) 大型電腦 (Mainframe) 迷你電腦 ( Mini computer)
第4章 处理器(CPU) 4.1 引言 4.2 逻辑设计的一般方法 4.3 建立数据通路 4.4 一个简单的实现机制 4.5 多周期实现机制.
指令集架構 計算機也跟人類一樣,需要提供一套完整的語言讓人們跟它充分溝通,以完成正確的計算工作。
C H A P T E R 10 存储器层次.
1-1 微電腦系統單元 1-2 微電腦系統架構 1-3 微控制器(單晶片微電腦) 1-4 類比與數位訊號介面
1-1 微電腦系統單元 1-2 微電腦系統架構 1-3 微控制器(單晶片微電腦) 1-4 類比與數位訊號介面
5 Computer Organization (計算機組織).
版权所有,禁止未经授权的商业使用行为 何宾 Tel: 北京中教仪装备技术有限公司.
Operating System Concepts 作業系統原理 CHAPTER 2 系統結構 (System Structures)
The Processor: Datapath and Control
Popular Uses of ABC/M - the 1st half
C H A P T E R 8 体系结构对系统开发的支持.
Android 课程讲义 智能手机开发
微程序控制器 刘鹏 Dept. ISEE Zhejiang University
Ch 9: Input/Output System 输入/输出系统
Lecture on High Performance Processor Architecture (CS05162)
重點 資料結構之選定會影響演算法 選擇對的資料結構讓您上天堂 程式.
JTAG INTERFACE SRAM TESTER WITH C-LCM
陳慶瀚 機器智慧與自動化技術(MIAT)實驗室 國立中央大學資工系 2013年5月28日
邹佳恒 第十八届全国科学计算与信息化会议 • 威海,
第2章 作業系統面面觀.
第6章 FIR数字滤波器设计 6.1 FIR数字滤波器原理 6.2 使用DSP Builder设计FIR数字滤波器
第3章 認識處理元.
計算機概論 第3章 計算機組織與結構概觀.
Instructions: Language of the Machine
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
第四章 存储器管理 4.1 存储器的层次结构 4.2 程序的装入和链接 4.3 连续分配方式 4.4 基本分页存储管理方式
The Processor: Datapath and Control (Multi-cycle implementation)
中国科学技术大学计算机系 陈香兰 2013Fall 第七讲 存储器管理 中国科学技术大学计算机系 陈香兰 2013Fall.
虚 拟 仪 器 virtual instrument
计算机系统结构(2012年春) ----存储层次: Cache基本概念
SoC 與微控制器的發展 朱亞民.
BiCuts: A fast packet classification algorithm using bit-level cutting
醫工所碩士二年級 R 葉昱甫 電子所碩士一年級 R 謝博鈞 電信所碩士一年級 R 王欣平
清华大学计算机科学与技术系高性能计算研究所 郑纬民 教授 2005年5月
Operating System Software School of SCU
第三章 计算机体系结构.
Presentation transcript:

Architecture and Systems 研究群 報 告 人:單智君 陳昌居 鍾崇斌 中華民國95年11月30日 資訊學院 研究能量與研發成果 Architecture and Systems 研究群 報 告 人:單智君 陳昌居 鍾崇斌 中華民國95年11月30日

資訊學院研究群 「資訊科學與工程研究所」研究群 architecture and systems 鍾崇斌、單智君、陳昌居

Architecture and Systems Research Directions Embedded processor and SoC Java processor, JIT compilation &VM DSP designs and compilation Low-power systems Graphic processor Superscalar ARM processor Reconfigurable computing Asynchronous circuits

Architecture and Systems R&D Results ARM9-compatible processor with video/audio capabilities Java stack operations folding Memory Constrained Java Just-in-time Compiler Asynchronous 8051 for low-power SOC applications DSP– instruction set extensions Low-power Branch-Target-Buffer Low-power bus encodings Low-power cache memory Graphic processor design techniques Superscalar ARM Reconfigurable computing

ARM9-compatible Processor with Audio/Video Capabilities ARMAVP (ARM Audio Video Processor) 為32位元微處理器,採用負載平衡良好的五階管線設計,分別為 Fetch Unit、Decoder Unit、Execution Unit、Memory access Unit 以及 Write Back Unit。對各階的設計進行效能的最佳化,以提高時脈頻率,並提供有效率的機制,降低了因為記憶體速度太慢對微處理機效能上的影響 特性 支援Conditional Execution ABP 緩衝器設計 改良指令抓取所需時間 精確中斷控制結構 非同步的記憶體存取 動態暫存器組的映射 分支指令的快速處理 多功能有效率的執行路徑 分散式指令控制編碼 功能驗證與評估 所有功能已在Altera EP20K600EBC652-1上完成驗證。根據Decode Stage之模擬結果,在FPGA上可工作於45MHz,預期實做為晶片時可達210MHz

Java Stack Operations Folding JVM: Stack Based Machine JVM Performance Bottleneck: Stack Operation Dependency 1 Constant Register Constant Register Producer Producer (CR) (CR) (P) (P) Local Variable Local Variable (LV) (LV) Operand Stack Operand Stack 1‘=1 fold 2 Execution Unit Execution Unit 2 Operator Branch Unit Operator Branch Unit 3 3 4 (O) (O) Complex Instr. Complex Instr. 5‘=4 fold 5 Consumer Consumer 5 Local Variable Local Variable (C) (LV) (C) (LV) Before Folding After Folding

Memory Constrained Java Just-in-time Compiler Mixed mode execution Complex bytecode is executed by the interpreter Fast compilation Two pass compilation Simple but effective optimizations About 300 cycles per bytecode Small memory usage About 23KB for static footprint 4KB code buffer is sufficient for common usage

Asynchronous 8051 for Low-Power SOC Applications SA8051 (Balsa Asynchronous 8051) 為一個8位元低耗電量微控制器, 相容於Intel MCS-51,採用非同步 電路方式設計,動態耗電量約為 同步版本的三分之一。 特性 - 無中央時脈 - 4-phase交握的設計 - soft-core 處理器 - 低耗電量    - 透過交握介面與同步IP整合 - 針對資料與控制路徑做最佳化 功能驗證與評估 所有功能已在Xilinx FPGA Spartan IIE 300 ft256上完成驗證。 根據XPower之模擬結果,動態 耗電量約為同步版本的三分之一。

DSP– Instruction Set Extensions Current directions Application-specific instruction set extensions (ISE) generation Why ISE ? Improvement performance. Keep flexibility and efficiency of original processor What is ISE ? Group frequently executed instruction patterns to be an extended instruction Executed in extra hardware, “Application Specific Functional Unit (ASFU)” Register File ALU MUL LD/ST ASFU ….. Main Memory

DSP– Instruction Set Extensions (cont.) Current research topics Multiple-issue architecture Exploring ISE in a multiple-issue architecture, such as superscalar or Very Long Instruction Word (VLIW) Hardware reusebility Reuse same or similar hardware resources in different ASFUs while keep same performance Overcome register file read/write port constraint Try to schedule the input and output of ASFU at different time slots

Low-power Branch Target Buffer BTB lookup operations of non-branch instructions are useless and only waste power Branch Distance Generation and Collection 將兩相鄰分支指令間的非分支指令個數蒐集紀錄。 Branch Distance Table Next Upcoming Branch Instruction Location 取得下一道分支指令的位置並且在其來臨前停止所有BTB Lookup動作。

Low-power Bus Encodings 在此我們針對不同的匯流排架構的特性,提出了不同的低電耗匯流排編碼系統。我們的編碼系統利用了各種編碼方法,將藉由匯流排傳輸的資料,以最具有電耗效率的方式來傳送,達到省電的效果。 低電耗匯流排編碼系統 匯流排編碼架構 傳送端 編碼器 原始資料 接收端 解碼器 編碼過的資料 額外控制線路 處理器 指令位址匯流排 T0 + Discontinuous Address Table 指令匯流排 BIBITS with Register Relabling 指令 記憶體 資料 記憶體 資料位址匯流排 T0_BI_1,Variable-Stride,SRWEC 資料匯流排 Leading-bytes encoding 處理器 指令、位址混和之位址匯流排 I/D Selector,T0 DAT+Stride-Table 指令、位址混和之匯流排 I/D Selector,BIBITS_RR+Leading-bytes 記憶體

Low-power Cache Memory 快取記憶體佔有整體處理器超過50%之功耗 低功耗快取記憶體設計 Loop Buffer: 將loop code置入低耗電存取之loop buffer中以節省指令擷取之功耗 Power Manager:將不常使用之快取記憶體區塊置入低耗電模式以節省快取記憶體之靜態功號。

Graphic Processor 研究目的︰ 進行新一代繪圖處理器架構研究,於像素著色器 (Pixel Shader)、材質 (Texture) 及深度處理 (Depth Processing) 等三大方向提出硬體架構及軟體驗證環境。 目前成果分項說明如下︰ 3 4 2 5 6 1 A dynamically reconfigurable graphics hardware for resource reallocatable rendering pipeline A Reconfigurable Texture Mapping Architecture Implementation of texture Compression by GPU Driver Register Renaming for Pixel Shaders data/value management Instruction scheduling mechanism for 3D GPU pixel shader An Efficient Texture Memory System Designs Alpha Blending without Z Sort

Superscalar ARM Goal: a superscalar embedded processor featuring 800MHz clock rate @ 0.13um 1.8DMIPS / MHz – superscalar performance under tough pipeline latency 800K gate count – cost-effective design Directions and achievements Micro-architecture A 12-stage dual-issue superscalar processor with good instruction fetch rate, issue rate, and efficient forwarding Simulator A cycle-accurate simulator modeling more details than the well-known simplescalar simulator Compiler Working on GCC machine description to optimize performance

Reconfigurable Computing ( 1 / 2 ) Motivations: Improving the Design Methodology of Embedded System Hardware Providing a Better Performance with Low Development Cost Shorting the Time-to-Market of SoC Products Research Issues: Hardware/Software Partition Synthesize Technology Reconfigurable Processing Element Design Reconfigurable Architecture

Reconfigurable Computing (cont.) ( 2 / 2 ) Detailed Design of Reconfigurable Architecture A Design of Reconfigurable Architecture Scaleable Design of PE Published Research Results: Run-time Reconfigurable Scheduling of 3D-Rendering on a Reconfigurable System (CCCT’05) Design and Implementation of a Reconfigurable Hardware for Secure Embedded Systems (ASIACCS’06)