高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能.

Slides:



Advertisements
Similar presentations
办公室保健指南. 减少辐射篇 ❤显示器散发出的辐射多数不是来自它的正面,而是侧面和后面。因此,不要 把自己显示器的后面对着同事的后脑或者身体的侧面。 ❤常喝绿茶。茶叶中含有的茶多酚等活性物质,有助吸收放射性物质。 ❤尽量使用液晶显示器。
Advertisements

刘小清 广东省心血管病研究所 先心流行病学研究. 流行学 美国 2006 年 -- 全球出生缺陷报告 全球每年新增出生缺陷 >800 万人 90% 发生在中低收入国家 每年大约有 330 万 5 岁以下儿童死于出生缺陷 320 万的儿童终生残疾 其中,先天性心脏病位居出生缺陷的首位.
病历书写 中山医院呼吸科 张 新. 定 义 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理, 按照规定的格式而写成的;是关于病人发病情况, 病情发展变化,转归和诊疗情况的系统记录。 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理,
第十二章 病历书写与要求 病历病历 医务人员在医疗中形成的文字、符号、图表、 影像、切片等资料的总和。 病历书写 通过诊法、诊断、治疗、护理等医疗活动获得有关资 料,进行归纳、分析、整理形成医疗活动记录行为。 病历意义 A 诊疗等的源文件; B 复 / 转 / 会诊,解决医疗纠纷、判定法律责任、医疗保险等的资料和依据;
魏 饴. 处级干部培训班讲座 一、卓越干部的德行素质  常修为政之德、常思贪欲之害、常怀律己之心!  孔老夫子有个观点 “ 为政以德,譬如北辰居其所而众星拱之。 ”  司马光《资治通鉴》 “ 才者,德之资也;德者,才之帅也。 ” “ 德 ” 胜 “ 才 ” 谓之 “ 君子 ” , “ 才 ”
企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
商管群科科主任 盧錦春 年 3 月份初階建置、 4 月份進階建置、 5 月份試賣與對外營業。
C A D C D.
中国部分农村地区肺结核发病因素 的病例对照研究 陈 伟 中国疾控中心结核病预防控制中心 北京.
一、真愛密碼 二、尋求真愛 三、有自尊的愛. 。如果雙方對愛情產生 質疑、困惑時,則表示 彼此之間的愛情關係仍 有 待加強或釐清,千萬別 急著為自己的人生大事 下決定。 我是一個 16 歲的未婚媽媽,發現自 己懷孕時,已經五個月大了,我知 道自己沒能力照顧孩子,在驚訝之 於,大人們只好坦然接受,幫我找.
大地遊戲王 課程實錄.
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
数据库原理及应用(ORACLE)实用教程
加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施
資料採礦與商業智慧 第十六章 線上分析處理.
第4章 分錄及日記簿 4-1 借貸法則 4-2 日記簿的格式及記錄方法 4-3 分錄的意義及記錄方法 4-4 常見分錄題型分析
数据库原理及应用 《数据库原理及应用》课程组 荆楚理工学院.
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
第8章 数据库技术基础 数据库可以直观地理解为存放数据的仓库,只 不过这个仓库是在计算机的大容量存储器上。
第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務 義務 權利 年繳會費五百元整
時間:102年9月18日(星期三) 地點:國立臺灣師範大學綜合大樓509國際會議廳
数据仓库基础培训 山西项目组
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
财务管理.
云计算业务应用-数据挖掘.
第二节 工业地域的形成 工业联系 工业集聚 工业地域
台灣的名勝古蹟.
深圳人口与医疗需求预测 深圳大学 吴心弘 杨杰 蔡炜城 1.
當代國際企業.
資料倉儲與資料前置處理 報告者:謝仁瑋.
植物保护 课程整体设计 汇报 申报省级精品资源共享课建设 植物保护课程组.
“深入推进依法行政加快建设法治政府” -《法治政府建设实施纲要》解读
第六节 可降阶的二阶微分方程 一、 型的微分方程 二、 型的微分方程 三、 型的微分方程.
台灣史總複習.
政府扶持资金通览 技术改造篇.
电力窃漏电用户自动识别 2017/4/10.
翰林自然 六年級上學期 第二單元 聲音與樂器.
数据库管理软件 Access 2003的使用 安丘市职业中专 雷云龙 1.
國文報告 儒家生死文化討論 不死鳥 組員 972BP001 彭科強 972BP008 王薪榕 972BP025 彭裕宗
本科生医保资料的提交.
線上分析處理、 資料採礦與 Analysis Services
二.資料庫系統建立與管理 Access 資料庫:windows下的單機資料庫 Access 操作 Mysql資料庫介紹.
Data Mining 工具介紹 (Weka+JDBC)
Chap 3 資料庫模型與處理架構.
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
第一篇 数据仓库与OLAP 第一章 数据仓库基本概念
統計圖表的製作.
Data Mining 工具介紹 (Weka/R + ODBC)
醫院主管資訊系統個案研究 -以台中榮民總醫院為例
資料庫系統導論.
《结构力学认知实验》(授课形式)的上课时间改为: 5月5日(周二)晚上18:00~19:30和19:30~21:00,
《结构力学认知实验》(授课形式)的上课时间改为: 5月7日(周四)晚上18:30~20:00和20:00~21:30,
第一章 数 据 库 概 述 第一节 引言 第二节 数据库基本概念 第三节 数据库系统结构 第四节 数据模型 第五节 数据库管理系统
计算机文化 第7讲:数据库技术 王哲 河南中医药大学信息技术学院.
光輪2000升級 升級SQL Server Analysis Services 2005
畢業資格審查系統 操作步驟說明.
第十八章 資料庫與Access 課前指引 在日常生活中,無論各位到銀行開戶、醫院掛號或是到學校註冊,一定都會填寫所謂的個人資料,裡面通常包括姓名、性別、生日、電話、住址等項目,所以人們建立了各種不同的列表來儲存及組織這些資料。 人們當初試圖建造電腦的主要原因之一就是可用來儲存及管理一些數位化資料清單與資料,這也是資料庫觀念的由來。尤其在資訊科技發達的今日,日常的生活已經和資料庫產生密切的結合。例如目前最熱門的網路拍賣,如何讓千萬筆交易順利完成,或者透過手機記錄著他人電話號碼,並能分類與查詢電話。
新制退休實務計算說明- 現職人員退休範例說明
生命教育 媒材應用分享 電影 天外奇蹟(UP) 華盛頓高中 巫孟容.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程
106 學年度新生入學說明會 國立臺灣海洋大學 教務處簡介
創造不一樣的人生 -如何與身心障礙者接觸 新竹教育大學 薛明里.
學士學位畢業論文說明 逢 學 大 甲 土 理 管 地 2009/10/05.
高雄市97年度國民小學閱讀計畫創新教學-教案達人創新教學方案
约您世界各地中秋赏月.
第10章 網路問卷調查.
数据库应用技术 天津电大 翟迎建.
高擴充高穩定高安全 企業級資料管理平台 Report Builder概論 錢曉明 資策會 資深講師 台灣微軟 資深講師.
Presentation transcript:

高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能

主要内容 研究背景 MSMiner体系结构 元数据 数据仓库平台 数据采掘集成工具 2018/11/24 史忠植 高级人工智能

典型的知识发现系统 SAS公司的SAS Enterprise Miner IBM公司的Intelligent Miner Solution公司的Clementine 加拿大Simon Fraser Univ.的DBMiner 中科院计算技术研究所的MSMiner 等 2018/11/24 史忠植 高级人工智能

知识发现工具SAS SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。 2018/11/24 史忠植 高级人工智能

知识发现工具SAS SAS Enterprise Miner提供"抽样-探索-转换-建模-评估"(SEMMA)的处理流程。数据挖掘算法有: ·聚类分析,SOM/KOHONEN神经网络分类算法 ·关联模式/序列模式分析 ·多元回归模型 ·决策树模型(C45, CHAID, CART) ·神经网络模型(MLP, RBF) ·SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。 2018/11/24 史忠植 高级人工智能

知识发现工具Intelligent Miner IBM公司的Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。 2018/11/24 史忠植 高级人工智能

知识发现工具Clementine Solution公司的Clementine 提供了一个可视化的快速建立模型的环境。它由数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。 2018/11/24 史忠植 高级人工智能

数据挖掘工具: 公用系统 MLC++ Matlab Weka 2018/11/24 史忠植 高级人工智能

知识发现工具MSMiner MSMiner具有下列特点: .基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。       .基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。       .数据的抽取、转换、装载等预处理方便,支持OLAP查询。         2018/11/24 史忠植 高级人工智能

MSMiner的特点 提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多种数据挖掘算法,支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能,并支持高层次的决策分析功能。 实现了可视化的任务编辑环境,以及功能强大的任务处理引擎,能够快捷有效地实现各种数据转换和数据挖掘任务。 可扩展性好。转换规则和挖掘算法是封装的、模块化的,系统提供了一个开放的、灵活通用的接口,使用户能够加入新的规则和算法。 容易进行二次开发。 2018/11/24 史忠植 高级人工智能

数据仓库: 特征 面向主题 集成性 稳定性 随时间变化 2018/11/24 史忠植 高级人工智能

数据仓库: OLAP ROLAP: Relational OLAP MOLAP: Multidimensional OLAP HOLAP: Hybrid OLAP 2018/11/24 史忠植 高级人工智能

数据挖掘和数据仓库的结合 数据仓库为数据挖掘提供经良好处理的数据源 数据挖掘为数据仓库提供深层数据分析手段 2018/11/24 史忠植 高级人工智能

MSMiner体系结构 设计目标: 提供快捷有效的数据挖掘解决方案。 设计要求: 开放性 可扩展性 效率 易用性 2018/11/24  提供快捷有效的数据挖掘解决方案。 设计要求: 开放性 可扩展性 效率 易用性 2018/11/24 史忠植 高级人工智能

MSMiner体系结构 MSMiner体系结构示意图 客户端 服务器端 元数据模块 执行数据采掘任务 编辑数据采掘任务 数据采掘集成工具 数据抽取和集成 主题组织 OLAP 可视化 数据仓库管理器 数据仓库 OLE DB for ODBC 2018/11/24 史忠植 高级人工智能

元数据的内容 关于外部数据源的 关于内部数据的(包括数据库、表、字段的信息) 关于数据仓库的(包括事实表、维表、立方以及其它的中间表) 关于用户信息的 数据采掘算法(包括算法的参数信息) 关于采掘任务的(包括采掘步骤、每个步骤的所用的参数) 2018/11/24 史忠植 高级人工智能

元数据:元数据库 2018/11/24 史忠植 高级人工智能

元数据:元数据对象模型 设计思路 一致性 完备性 易维护性 2018/11/24 史忠植 高级人工智能

元数据的结构 元数据是 层次的 嵌套的 封装的 互相联系的 采用面向对象的方法 共有60多个类 2018/11/24 史忠植 高级人工智能

数据仓库平台:结构 MSMiner数据仓库结构示意图 外部数据 数据仓库 元 数 据 数据抽取、清洗、聚集、转换 主题2 主题1 主题n OLAP及可视化工具 数据采掘集成工具 ... 2018/11/24 史忠植 高级人工智能

数据仓库平台:数据抽取和集成 数据的简单抽取和集成 数据的复杂处理 面向数据挖掘的数据预处理 2018/11/24 史忠植 高级人工智能

数据抽取和集成: MSETL MSETL系统作为MSMiner数据挖掘平台的一个重要组成部分,主要完成从业务数据源到分析数据源的转换功能。具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库/数据库 2018/11/24 史忠植 高级人工智能

数据抽取和集成: MSETL 用户界面 (ETL转换函数和ETL任务)逻辑处理 元数据管理 数据库服务器 2018/11/24 史忠植 高级人工智能

数据抽取和集成: MSETL 支持多种数据源和目的数据库 良好的可扩充性 高效率的调度执行功能 增量更新功能 2018/11/24 史忠植 高级人工智能

数据抽取和集成: MSETL 2018/11/24 史忠植 高级人工智能

数据抽取和集成: MSETL 2018/11/24 史忠植 高级人工智能

数据仓库平台:数据仓库建模 星型模型 产品维表 产品号 产品名称 产品目录 客户维表 事实表 客户号 客户名称 客户地址 产品号 客户号 订单号 时间标识 地区名称 产品数量 总价 订货维表 订单号 订货日期 时间维表 时间标识 月 季度 年 地区维表 地区名称 省别 星型模型 2018/11/24 史忠植 高级人工智能

OLAP MOLAP, ROLAP, HOLAP OLAP 的操作 OLAP方案 采用了自主开发的 OLAP Server Slice (切片) Dice (切块) Roll up (上卷) Drill down (下钻) Pivot (旋转) OLAP方案 采用了自主开发的 OLAP Server 2018/11/24 史忠植 高级人工智能

数据立方体 2018/11/24 史忠植 高级人工智能

数据仓库平台:OLAP的实现 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:结构 元数据 任务模型库、算法描述 算法管理 任务编辑 任务规划 和执行 算法库 数据仓库平台 数据挖掘集成工具结构示意图 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:数据挖掘任务模型 DMTask = (V, R) V = {x | x ∈StepObjects} R = {<x, y> | P(x, y) ∧ x, y∈V} Step3 Step1 Step2 Step5 Step4 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:数据挖掘任务模型 步骤对象BNF语法定义: <StepObject> ::= <Attribute_List>;<Method_List> <Attribute_List> ::= [<Attribute>|<Attribute>;<Attribute_List>] <Attribute> ::= <Name>,<Value> <Method_List> ::= [<Method>|<Method>;<Method_List>] <Method> ::= <Name>,<Script> <Name> ::= [<char>|<string>] <Value> ::= [<char>|<string>|<integer>|<float>] <Script> ::= <DML_Sentence>* 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:编辑任务模型 任务向导 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:编辑任务模型 任务编辑图板 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:处理任务模型 数据采掘任务处理引擎的结构 人机界面 规划器 主控模块 解释器 缓存 函数库 黑板 任务模型库 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:处理任务模型 任务规划和解释执行 S1 S3 S2 S4 S5 S1 - S2 - S3 - S4 - S5 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:DML语言 DML函数 人机交互和控制台输入/输出 数值计算 字符串处理 图形、图表展示 文件操作 数据库访问 网络通讯 对象访问 消息处理和流程控制 黑板操作 外部功能调用 其它辅助功能 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:内嵌 决策树 SOM神经网络 粗糙集 关联规则 2018/11/24 史忠植 高级人工智能

决策树 2018/11/24 史忠植 高级人工智能

知识约简 知识约简——在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识 冗余知识——资源的浪费;干扰人们作出正确而简洁的决策 Rough Set——把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集(Z.Pawlak ) 知识约简是粗糙集的核心内容之一 2018/11/24 史忠植 高级人工智能

Rough Set约简 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:外联 超曲面分类 SVM 贝叶斯网络 基于范例推理(CBR) 隐马尔科夫模型(HMM) BP神经网络 统计分析 模糊聚类 2018/11/24 史忠植 高级人工智能

BP用于预测 2018/11/24 史忠植 高级人工智能

统计工具 线性回归模型 ——一元线性回归、多元线性回归、逐步回归 非线性回归模型——二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型 确定型时间序列模型——指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线 )、季节指数法 随机型时间序列模型(自回归-移动平均模型ARMA) 相关分析 2018/11/24 史忠植 高级人工智能

自回归移动平均( ARMA) 2018/11/24 史忠植 高级人工智能

模糊聚类 基于传递闭包的模糊聚类 ——计算模糊相似矩阵的传递闭包, 从而获得传递闭包法的模糊聚类 基于摄动的模糊聚类 ——参数系 相似矩阵的最优模糊等价阵及其等价标准型获得失真最小的模糊聚类 2018/11/24 史忠植 高级人工智能

数据挖掘集成工具:可扩展算法库 算法注册 2018/11/24 史忠植 高级人工智能

MSMiner的应用:计算机选案 税务稽查计算机选案系统功能结构 决策树选案 数据汇总表 定义样本模板 执行选案 样本数据表 选案规则 训练样本数据 选案结果分析 税务稽查计算机选案系统功能结构 2018/11/24 史忠植 高级人工智能

MSMiner的应用:计算机选案 挖 掘 结 果: 2018/11/24 史忠植 高级人工智能

进一步的工作 与用户合作开发应用实例 进一步完善工作流 完善和丰富数据挖掘算法库 算法评测功能。 2018/11/24 史忠植 高级人工智能

www.intsci.ac.cn/shizz/ Questions?! 2018/11/24 史忠植 高级人工智能