Presentation is loading. Please wait.

Presentation is loading. Please wait.

中华字库的云输入法 王勇 基础软件国家工程研究中心 2012-8-23.

Similar presentations


Presentation on theme: "中华字库的云输入法 王勇 基础软件国家工程研究中心 2012-8-23."— Presentation transcript:

1 中华字库的云输入法 王勇 基础软件国家工程研究中心

2 报告内容 相关概念 需求分析 实现设计

3 报告内容 相关概念 中华字库 输入法 云输入法 中华字库的输入法 需求分析 实现设计

4 中华字库 “中华字库”工程要“建立全部汉字及少数民族文字的编码和主要字体字符库 。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术” 。 GB (ISO/IEC 10646:2003) 70k+ 新整理汉字 少数民族文字 各种古汉字 各类少数民族古文字

5 云 基于互联网的计算模式,它使得计算机和其他计算设备可以方便地访问云计算服务器所提供的计算硬件资源、软件和数据。
IaaS PaaS SaaS 并行计算框架 Hadoop MapReduce 分布式文件系统 HDFS 支撑大规模数据的处理和存储 软件即服务(SaaS, Software as a Service) 用户实际通过使用部署在云计算基础架构上的应用程序来享受服务,如电子邮件、在线文档(Web doc)、在线表格(Web Spreadsheet)及网络存储等。 平台即服务(PaaS, Platform as a Service) 用户使用的是云计算所提供的一个平台,包括软件开发语言和工具集。它可以具体呈现为一个虚拟的操作系统,用户可以在此平台之上开发和部署自己的应用。 基础设施即服务(IaaS, Infrastructure as a Service) 用户直接访问云计算所提供的并行运算、分布式存储、网络带宽等基础设置,并可以基于此搭建自己的平台和应用。

6 输入法 接收用户的请求信息,在服务器端的词表中检索匹配的候选词,返回相应的字符编码 单机:成熟的 在线服务:在服务器端部署,处理并发请求

7 输入法

8 云在输入法中的应用 Sougou 希望云输入法的推出能够彰显我们的技术实力,说明在中文处理技术领域,搜狗团队站在最高峰上。
就云输入法来言,我们预期的用户人数是6千。 优势:(中文)语义正确率提高到90%,用户短句的覆盖率和首选率提高到了96%以上。 局限性:网页环境、网速依赖、个性调整

9 云在输入法中的应用 MapReduce在输入法中的应用 语言模型的训练 词组模型和词库容量的升级,三元模型,4G词库 200w词表 建立索引
关系联合 建立索引:在分析输入法的输出时,经常要到语料中去找某一词或者某三元关系的语境,也就是上下文(context, concordance),为了查找方便会事先建立一个索引。 关系联合:找出所有拼音相近的词对,然后判断这些词对是不是正确输入和错误输入形成的。这一问题也称为关系联合,也就是将数据中具有特定关系的条目联合一起;它也是数据库领域的一个重要命题。显然,用户输入的规模十分庞大

10 中华字库的输入法 支持全部字符 各种输入类型 1000 2秒

11 报告内容 相关概念 需求分析 使用群体 实现功能 服务类型 实现设计

12 使用群体 普通用户——日常用字,部分生僻字 文字专家——研究古文字 专业人员——领域用字 少数民族——少数民族文字(仍在使用的)
使用群体和单机版的冲击

13 输入法功能 输入字符编码,返回字符 拼音(码串)已拆分,返回固定单字 拼音(码串)未拆分,返回固定词语 拼音(码串)未拆分,返回词语短句
拼音(码串)未拆分,更多功能 词频调整 词表导入和更新(大字符集词表、分类词表)、用户提交词表 词语联想、补全(特殊格式、英文)、人名识别 回退、智能纠错、拆分输入 用户参与(个性词表、专用词库、提交词表)

14 服务类型 SaaS模式 Hadoop MapReduce的应用 在线服务 高并发 10w/1000 低延时 2秒
方德:利用MapReduce编程接口,对数据资源进行并行处理,上层提供类SQL的查询处理接口,实现对中华字库中海量的数据进行快速的查找、插入等操作,对大量的用户请求进行快速的响应 在线服务 高并发 10w/1000 低延时 2秒

15 服务类型 相关概念 需求分析 实现设计 码表词表的存储 并行处理设计 网络部署

16 码表词表的存储 磁盘 多个文件 内存 Trie树索引 无缓冲 输入算法只有读操作,没有写操作(磁盘文件) 常驻内存可消除I/O操作

17 并行设计 方德:由云并行处理框架提供大并发用户的请求处理能力,并发的为用户提供云服务等请求访问服务。 进程 / 线程 阻塞/ 非阻塞

18 网络部署 网络环境 延时 = 请求信息传输 + web server接收 + 任务分发
Nginx PHP (FastCGI)服务器在3万并发连接下,开启的10个Nginx进程消耗150M内存(15M*10=150M),开启的64个php- cgi进程消耗1280M内存(20M*64=1280M),加上系统自身消耗的内存,总共消耗不到2GB内存。如果服务器内存较小,完全可以只开启25 个php-cgi进程,这样php-cgi消耗的总内存数才500M。

19 谢谢您的时间, 欢迎批评指正!


Download ppt "中华字库的云输入法 王勇 基础软件国家工程研究中心 2012-8-23."

Similar presentations


Ads by Google