Chinese World hmwang.

Slides:



Advertisements
Similar presentations
汇编语言 程序设计 第 1 章 基础知识 第 1 章 基础知识 ◆ 汇编语言程序设计概述 ◆ 进位计数制及其相互转换 ◆ 计算机中数的表示 ◆ 计算机中字符的表示 汇编语言程序设计概述 进位计数制及其相互转换 计算机中数的表示 计算机中字符的表示.
Advertisements

1 1.2 信息的表示与存储  数据:数据是对客观事物的符号表示。 如,数值、文字、语言、图形、图像等都是不同形 式的数据。  信息:信息是既是对客观事物变化和特征的反映,又 是事物之间相互作用、相互联系的表征。 信息必须数字化编码,才能用计算机进行传送、存 储和处理。 信息具有针对性和时效性。
第4章 文字处理与编辑排版.
2015退伍士兵焊工专业 第一学期 课程名称:计算机基础(一).
计算机应用基础 项目化教程 第1章计算机基础知识与操作入门.
文字录入的提高知识 本课要点 具体要求 本章导读 上机练习.
公會組織糾紛 指導老師:柯伶玫 組員 495B0065 劉致維 495B0072 廖怡塵 495B0097 范家皓.
第 9 章 多媒體.
汉字编码 汉字编码.
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
課程名稱:計算機概論 授課老師:李春雄 博士

计算机应用基础 计算机基础知识.
第一章 计算机基础知识 计算机的发展简史 1 计算机软件系统 6 计算机的定义和分类 2 微型计算机的组成 7 计算机的特点和用途 3
2014年度企业所得税业务培训 蚌埠市地方税务局所得税科.
Unicode和多语言信息处理 adoal.
市八中学 胡亮平 办公室:F504 高中信息科技 市八中学 胡亮平 办公室:F504
網頁介面設計的基礎理論 講師:鄭靜怡 本教材內容出自於網頁界面設計藝術教程,人民郵電出版社.
2.3 信息表示与编码 所谓编码,就是利用数字串来标识所处理对象的不同个体。
计算机基础.
企业所得税年度纳税申报表(2014年版)培训 国家税务总局公告2014年第63号
第 5 章 數字系統與資料表示法.
第二章 數字系統:電腦內部的資料表示法 在第一章中,我們對於電腦有了初步的認識,在深入介紹電腦的各項組成元件之前,首先我們必須先了解另一種不同於人類使用習慣的二進位表示法,由於電腦的半導體、磁性、光學元件適合用來表示二進位,因此二進位表示法非常適合用來設計電腦。
運用網路資源趣味化 「每日飲食指南份量」教學
计算机与信息技术应用基础 徐东雨 计算机中心
第9章 平面图像处理基础 9.1 平面图像处理基本概念 9.2 Photoshop基础操作.
计算机文化基础 第二课 计算机基础知识.
第7章 建立資料表與完整性限制條件 7-1 資料型別 7-2 資料表的建立 7-3 建立完整性限制條件 7-4 修改與刪除資料表
能量買賣訊號 ◎波段賣訊:下列四項出現三項以上(含三項) 1、空方能量升至整波上漲之最高水準,且空方能量>多方 能量30%以上。
第一章 信息技术与 计算机文化 潍坊医学院 第一章信息技术与计算机文化.
第二章 计算机基础知识 2.1 计算机系统的组成与工作原理 2.2 数制转换及运算 2.3 数据在计算机中的表示.
數字系統與資料表示法 電腦的基本單位 數字系統 數值資料表示法 數值資料與算數運算 數碼系統 浮點數表示法 文字表示法 資料來源:周裕達教授.
教育人員退休新法說明會 106年12月14日 ★資料來源:參考銓敘部及高雄市教育局人事室簡報檔.
國文(一) 1.第一單元---青春印記 (學習篇、愛情篇) 2.第二單元---生活美學 3.第三單元---優遊家園.
eBook Design -雲端視訊電子書推廣
第 2 章 上機使用 Unix/Linux 內容: 操作介面 主機連線 登入主機 認識系統環境 使用者常用命令.
中文輸入 拼音輸入法 拆字輸入法 綜合拼音與拆字輸入法 中文手寫輸入法 掃描、中文圖形輸入: 語音輸入法: 微軟新注音、自然輸入法
Visual Basic 6.0 學習範本 第三章 基本資料型態.
電腦的種類 超級電腦 (supercomputer) 大型電腦 (Mainframe) 迷你電腦 ( Mini computer)
資料表示法與數字系統 主講:顧叔財 資料來源: 計算機概論.
A3-1 數字系統 A3-2 資料表示法 A3-3 資料的儲存
计算机文化基础 第一章 计算机的基础知识.
中文世界 Ensky.
Linux 系統管理 計網中心網路組 楊世偉.
精進教師研習 QR Code製作教學 資料來源:
《计算机应用》课程电子教案 [沈阳电大第二届电子教案大赛] 沈阳广播电视大学 机电系 刘玉香 沈阳电大 机电系 刘玉香.
Linux 中文化架構與原理 概說 名辭 原理 實作 其它.
文字資料表示法 & 布林代數與數位邏輯.
預官考試輔導 計算機概論提要 91年12月4日.
Chapter 2 Basic Elements of Fortran
數位影像壓縮 技術簡介 第四組 陳孝賢.
第 9 章 中文系統 著作權所有 © 旗標出版股份有限公司.
中 文 世 界.
第1章 计算机基础知识 1.1 概述 1.2 计算机的系统组成 1.3 数据在计算机中的表示与存储 1.4 微型计算机系统的维护
6-1 資料表示法簡介 6-2 數值表示法 6-3 數字系統介紹 6-4 數字系統轉換方式
IT&SAMS小組 (IIT - 倉頡輸入法)
任务一:初识计算机 任务二:学习计算机中的信息表示 P /4/7.
第 1 章 文字媒體 多媒體導論與應用-第三版 1.1 文字的格式 1.2 數位化文字的應用 1.3 課後練習
作業系統 Operating System 第四單元 檔案系統
2-1 數位化概念 2-2 資料的數位化 ※ 2-3 基本數位邏輯處理
數字系統 資訊工程系 國立清華大學資訊基礎教育 教學改進計畫 數字系統 資訊工程系 /4/22.
數位邏輯設計與實習 主講者:杜勇進.
學生學習檔案製作經驗分享 國際貿易實務課程研習 -- 多元升學與技能證照 2010 /04 /30 台中家商
第四章 图元的属性.
如何連上工作站 WorkStations: 1. Solaris 2. Linux Use X-Win32 (for Solaris)
勞工保險年金制度 簡報人:吳宏翔.
國立成功大學化工系 鄭智元副教授 研究室 Tel: 62664
法律的解釋 楊智傑.
Introduction to Computer Security and Cryptography
Presentation transcript:

Chinese World hmwang

編碼標準 Encoding Standard 電腦是美國人發明的 • ASCII (American Standard Code for Information Interchange) 地方的電腦也要顯示中文 • Big5 • 台灣財團法人資訊工業策進會 在 1983 年為 五大中文套裝軟體 設計的編碼系統 • 繁體中文中最常用的電腦中文字符集標準 • 萬年遺毒

編碼標準 ASCII Big5 Ref: http://www.cns11643.gov.tw/AIDB/encodings.do 8 bits (理論上有 256 種可能) 0x00 ~ 0x7F 共 128 種字元 0x00 ~ 0x1F  control characters 0x20 ~ 0x7F  printable characters Big5 使用 2 bytes 來存放中文字 (理論上有 65536 種可能) 實際上為與 ASCII 相容, 只能使用 19782 個 [0x81 ~ 0xFE][0x40~0x7E, 0xA1 ~ 0xFE] = 126 * (63 + 94) = 126 * 157 = 19782 Ref: http://www.cns11643.gov.tw/AIDB/encodings.do

編碼標準 – Big5 標準字 (13502) 特殊符號 (441) 使用者造字 (5809) 常用字 次常用字 符號、控制碼 罕用符號 你我他的媽 次常用字 朸旯朿鐰飉 特殊符號 (441) 符號、控制碼 : ! 。∩ ♂ ├ 罕用符號 使用者造字 (5809) 三段

Big5的問題 使用者造字區 缺字 延伸版本繁雜 許功蓋問題 (\) 每個人都可以自己造字 於是自己造的字放到別人電腦上就看不到 堃、煊、栢、喆 延伸版本繁雜 倚天Big5延伸 Code Page 950 Big5+ 族繁不及備載.. 許功蓋問題 (\) 0x5C (\) 會有特殊意義 許(0xB35C)、功(0xA55C)、蓋(0xBB5C)

編碼標準 - Unicode 全世界共有上百種文字,因此有很多種不同的編碼系統 日本有 JIS,中國有 GB 2312,… etc 同樣的編碼在不同的編碼系統下顯示會不同 Unicode 組織就誕生了!!!!

Unicode VS ISO 10646 1991年左右,同時有兩個組織著手規範世界字碼 過不了多久,他們就互相體認到 「這個世界不需要兩套不同的單一字符集」 因此他們決定共用同樣的字碼 現在這兩個組織各自存在,各自互相砥礪 ref:http://zh.wikipedia.org/wiki/ISO_10646

編碼標準 – ISO10646 and Unicode (1) Goal 集結全球通用字符集,成一大聯集 UCS-4 Universal multiple-octet coded Character Set 4 bytes encoding (2^31) 128 Groups 256 Planes each group 256 Rows each plane 256 Cells each row BMP (UCS-2) Basic Multilingual Plane 00 group, 00 plane 65536 encoding space Why in BMP 若所有字集都在 BMP 中, 就可以只使用 2 bytes, 否則就要用 4 bytes, 不能混用

編碼標準 – ISO10646 and Unicode (2) BMP

Unicode 的問題 Big Endian & Little Endian • U+4E59?(乙) • U+594E?(奎) 編碼空間浪費 • ASCII 字元通通都用 2byte 表示:0x00 0x41 「A」第一位永遠是0

Unicode Transformation Format UTF: UCS/Unicode Transformation Format UTF-16(2、4 bytes) 將一個 32-bit ISO10646 字元轉成多個 16-bit Unicode Windows UTF-8(1~4 bytes) 將一個32-bit ISO10646 字元轉成多個 8-bit Unicode 將一個16-bit Unicode 字元轉成多個 8-bit Unicode 128個US-ASCII字元只需1 bytes編碼 帶有附加符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要 2 bytes 編碼 其他基本多文種平面(BMP)中的字元(這包含了大部分常用字)使用 3 bytes 編碼 其他極少使用的 Unicode 輔助平面的字元使用 4 bytes 編碼 Unix-like systems

非常經典的 UTF-8… 與既有系統的相容性 極高的辨識性 可以容納所有 Unicode 字元 只包含 ASCII 0-127 的字串是合法的 UTF-8 字串 NULL-terminated 字串處理 極高的辨識性 UTF-8字串可以由一個簡單的演算法可靠地識別出來。 可以容納所有 Unicode 字元 UTF-8 理論值可以容納百萬個字元 (實際是 1112064 個) (2012 年發佈的 Unicode 6.2 也才十一萬個字元) Unicode 與 UTF-8 之間的轉換很方便 一個字串在任何其它編碼中表現為合法的UTF-8的可能性很低,並隨字串長度增長而減小。

中文環境 (1) 要做到哪些事情 中文訊息 中文顯示 中文輸入 中文列印 中文處理 簡單 困難

中文環境 (2) 中文化方式 直接修改程式 18 chars 國際化(InternationalizatioN,i18n) 套件以排山倒海之勢而來只有真強者才能改完了Orz 18 chars 國際化(InternationalizatioN,i18n) Multi-language architecture 程式設計人員按照該架構的機制與準則寫程式, 便可支援各式各樣的語言 Locale (LOCALization Environment database) 程式根據使用者選擇的 locale 聯繫到不同資料庫, 進而提供該語言的支援 在地化(LocalizatioN,L10n) 在 i18n 的大架構下,加入「在地化」的特性 通常i18n只需做一次,而L10n要針對每個語言個別做

i18n & L10n i18n + L10n L10n only • 語言/翻譯 • 文化、書寫習慣 ➢ 名字和稱謂的位置 ➢ 電話號碼,位址和國際郵遞區號的格式 ➢ 貨幣單位 ➢ 度量衡 ➢ 日期時間 ➢ 時區 ➢ 數字格式 L10n only • 內容在地化 • 道德在地化 • 文化價值 • 社會環境

中文環境 (3) locale in FreeBSD 地區性語言的資訊 效力優先性:LC_ALL > LC_* > LANG LC_CTYPE 掌管該 locale 中所有字元的處理方式 LC_MESSAGES 掌管程式訊息輸出所用的語言 LC_TIME 時間格式 LC_NUMERIC 數字格式 LC_MONETARY 貨幣格式 LC_COLLATE 字母順序與特殊字元比較 LANG 語言顯示 效力優先性:LC_ALL > LC_* > LANG

中文環境 (4) 設定 locale Note: 可以寫在 .tcshrc/.bashrc 中登入後自動載入 csh/tcsh shell setenv LC_CTYPE en_US.UTF-8 Bourne Shell export LC_CTYPE=en_US.UTF-8 Note: 可以寫在 .tcshrc/.bashrc 中登入後自動載入 /usr/share/locale/ 各國的 locale 資訊 命名規則: 語言_地區名.字元編碼名稱 zh_TW.UTF-8 zh_CN.GBK

中文環境 (5) 中文 Xwindow 中文 Terminal (Remote Login) M$ Windows: putty, pietty, netterm, multi-term, telnet, …etc. X Window: xterm, rxvt, aterm, mterm,roxterm…etc. 設定好中文支援,登入後即可看到中文 setenv LC_CTYPE en_US.UTF-8 (csh/tcsh) export LC_CTYPE=en_US.UTF-8 (sh/bash) 顯示為英文但支援 multibyte characters 中文 Xwindow • 建立支援 L10n 中文環境 安裝中文字型 設定 Shell locale 環境 安裝中文輸入法 (Ex. ibus )

Steps ❑ 安裝中文字型 ❑ 安裝中文 Terminal Emulator ❑ 安裝中文輸入法 (Ex. ibus) ❑ 其他設定

安裝中文字型 (1) 兩大中文字型種類 點陣字型 (Bitmapped Font) 曲線描邊字型 (Outline Fonts) BDF (Bitmap Distribution Format) 點陣分散格式 HBF (Hanzi Bitmap Font) 漢字點陣字體 PCF (Portable Compiled Font) 曲線描邊字型 (Outline Fonts) True Type Font (TTF) 點陣(黑白)=>放大鋸齒,記憶體大 曲線=>數學運算=>放大縮小都完美

安裝中文字型 (2) Font Path 安裝字型 % xset q % xset fp+ [directory] /usr/local/lib/X11/fonts/misc/, /usr/local/lib/X11/fonts/TTF/, /usr/local/lib/X11/fonts/Type1/, /usr/local/lib/X11/fonts/75dpi/, /usr/local/lib/X11/fonts/100dpi/, /usr/local/lib/X11/fonts/local/ Font Path % xset q % xset fp+ [directory] % xset fp rehash 安裝字型 1. 直接從 Windows 下偷過去 2. 透過 ports 安裝字型檔案 使用 fc-cache 建立字型資料庫 修改各軟體設定使用別的字型

安裝中文字型 (3) Fireflyttf 透過 ports 安裝的都會自己跑 portmaster chinese/fireflyttf % ttfm.sh --add xttfm /usr/local/share/fonts/TrueType/fireflysung.ttf % fc-cache –f –v /usr/local/lib/X11/fonts/TrueType/ portmaster chinese/fireflyttf –f –v --force --verbose

安裝中文字型 (4) 增加 Font Path Edit /etc/X11/xorg.conf /usr/local/share/fonts/TrueType/fireflysung.ttf /usr/local/lib/X11/fonts/TrueType/fireflysung.ttf Restart xwindow symbolic link Section "Files" ModulePath "/usr/local/lib/xorg/modules" FontPath "/usr/local/lib/X11/fonts/misc/" FontPath "/usr/local/lib/X11/fonts/TTF/" FontPath "/usr/local/lib/X11/fonts/OTF" FontPath "/usr/local/lib/X11/fonts/Type1/" FontPath "/usr/local/lib/X11/fonts/100dpi/" FontPath "/usr/local/lib/X11/fonts/75dpi/" FontPath "/usr/local/lib/X11/fonts/TrueType/" FontPath "/usr/local/lib/X11/fonts/local/" EndSection

安裝中文 Terminal rxvt-unicode aterm eterm ROXterm mlterm /usr/ports/x11/rxvt-unicode aterm /usr/ports/chinese/aterm eterm /usr/ports/chinese/eterm ROXterm /usr/ports/x11/roxterm mlterm /usr/ports/x11/mlterm xlsfonts

ROXterm X11/rxvt-unicode roxterm-config xlsfonts

安裝中文輸入程式 Choices ibus-chewing(chinese/ibus-chewing) ibus-pinyin(chinese/ibus-pinyin)

安裝 ibus 中文輸入程式 (1) ibus Intelligent Input Bus % cd /usr/ports/textproc/ibus-chewing ; make install clean setenv LC_CTYPE zh_TW.UTF-8 (csh/tcsh) export LC_CTYPE=zh_TW.UTF-8 (sh/bash) Edit .xinitrc(或是可以 setenv in .cshrc/.bashrc) XIM=ibus GTK_IM_MODULE=ibus QT_IM_MODULE=xim XMODIFIERS='@im=ibus' XIM_PROGRAM="ibus-daemon" XIM_ARGS="--daemonize --xim"

安裝 ibus 中文輸入程式 (2) ibus相關設定 % ibus-setup (UTF-8) 可以加入 Chewing

安裝 ibus中文輸入程式 (3) Switch to chinese input: Ctrl -Space

References 中文碼介紹 FreeBSD Chinese HOWTO Introduction to i18n Unicode 介紹 http://www.cns11643.gov.tw/web/word.jsp FreeBSD Chinese HOWTO http://netlab.cse.yzu.edu.tw/~statue/freebsd/zh-tut/index.html Introduction to i18n http://www.debian.org/doc/manuals/intro-i18n/ Unicode 介紹 http://www.csie.ntu.edu.tw/~p92005/Joel/Unicode.html