谈模式识别方法在林业管理问题中的应用报告人：管理工程系马宁报告地点：学研B107

Slides:

Advertisements

Similar presentations

深圳市龙岗区科技创新局深圳市高新技术产业协会

Advertisements

國立嘉義大學資訊工程研究所指導教授：柯建全博士研究生：林俊志

Some theoretical notes on boosting

物盡其「柚」指導老師：黃俊理學生姓名：吳映嬅(119147)

短促·匆忙初二（10）班.

心痛中医内科学.

二維品質模式與麻醉前訪視滿意度中文摘要麻醉前訪視，是麻醉醫護人員對病患提供麻醉相關資訊與服務，並建立良好醫病關係的第一次接觸。本研究目的是以Kano‘s 二維品質模式，設計病患滿意度問卷，探討麻醉前訪視內容與病患滿意度之關係，以期分析關鍵品質要素為何，作為提高病患對醫療滿意度之參考。本研究於台灣北部某醫學中心，通過該院人體試驗委員會審查後進行。對象為婦科排程手術住院病患，其中實驗組共107位病患，在麻醉醫師訪視之前，安排先觀看麻醉流程衛教影片；另外對照組111位病患，則未提供衛教影片。問卷於麻醉醫師

資料探勘(Data Mining)及其應用之介紹

华东师范大学软件学院王科强 (第一作者), 王晓玲

单招班主任培训会生源地助学贷款解读单招班主任工作要求新生资助政策解读学生工作处 2015年5月.

第四章概率密度函数的非参数估计 2学时.

第十九章聯合分析、多元尺度方法和集群分析

-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學資訊管理系李麗華教授.

大数据在医疗行业的应用.

Chapter 8 Liner Regression and Correlation 第八章直线回归和相关

Chaoping Li, Zhejiang University

Academic Year TFC EFL Data Collection Outline 学年美丽中国英语测试数据收集概述

统计学习基础卿来云中国科学院研究生院信息学院 / 统计对研究的意义：

云实践引导产业升级沈寓实博士教授 MBA 中国云体系产业创新战略联盟秘书长微软云计算中国区总监 WinHEC 2015

Service survey center, NBS

Operating System CPU Scheduing - 3 Monday, August 11, 2008.

Some Effective Techniques for Naive Bayes Text Classification

Improving classiﬁcation models with taxonomy information

Thinking of Instrumentation Survivability Under Severe Accident

Population proportion and sample proportion

交換生說明會 101學年度下學期 (2013年春季學期) 2013年2月18日 (工程一館106室)

資訊管理第九章資料採礦.

模式识别 Pattern Recognition

文本分类综述王斌中国科学院计算技术研究所 2002年12月.

Manifold Learning Kai Yang

優質教育基金研究計劃研討會: 經驗分享 - 透過Web 2.0推動高小程度探究式專題研習的協作教學模式

Mechanisms and Machine Theory.

啟示錄人子七教會寶座七印七號龍與獸七碗巴比倫千禧年前後新耶路撒冷第9章(第5號)

Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育

第十二章資料探勘、商業智慧、知識管理第三篇企業對消費者B2C篇.

國立政治大學資訊科學研究所知識系統實驗室研究生：鄭雍瑋指導教授：劉吉軒博士中華民國九十五年六月三十日

Interval Estimation區間估計

Formal Pivot to both Language and Intelligence in Science

药物和疾病啥关系？李智恒.

Source: IEEE Transactions on Image Processing, Vol. 25, pp ,

神经信息学自组织网络 ——自组织映射史忠植中科院计算所 2019/2/2.

21st Century Teaching & Learning

—— 周小多.

類神經網路簡介 B 朱峰森 B 梁家愷.

聚类分析电子工业出版社.

常見的巨量資料分析與應用楊立偉教授台大工管系暨商研所 2018.

前向人工神经网络敏感性研究曾晓勤河海大学计算机及信息工程学院 2003年10月.

Course 4 分類與預測 Classification and Prediction

Review and Analysis of the Usage of Degree Adverbs

Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.

從 ER 到 Logical Schema ──兼談Schema Integration

第十章線上行銷研究.

主講人：陳鴻文副教授銘傳大學資訊傳播工程系所日期：3/13/2010

高考应试作文写作训练 5. 正反观点对比.

Distance Vector vs Link State

An organizational learning approach to information systems development

常見的巨量資料分析與應用楊立偉教授台大工管系暨商研所 2017.

(二)盲信号分离.

More About Auto-encoder

Distance Vector vs Link State Routing Protocols

何正斌博士國立屏東科技大學工業管理研究所教授

Chapter 9 Validation Prof. Dehan Luo

大数据应用人才培养系列教材数据挖掘基础刘鹏张燕总主编陶建辉主编姜才康副主编.

Class imbalance in Classification

数据挖掘导论福建医科大学郑伟成.

Chapter 0 Introduction to Medical Image Processing

Principle and application of optical information technology

Homework 2 : VSM and Summary

Gaussian Process Ruohua Shi Meeting

Presentation transcript:

谈模式识别方法在林业管理问题中的应用报告人：管理工程系马宁报告地点：学研B107 报告时间：2016年5月18日（周三），13：30-15：30

模式识别人们在观察事物或现象的时候，常常要寻找它与其他事物或现象的不同之处，并根据一定的目的把各个相似的但又不完全相同的事物或现象组成一类。字符识别就是一个典型的例子。例如数字“4”可以有各种写法，但都属于同一类别。更为重要的是，即使对于某种写法的“4”，以前虽未见过，也能把它分到“4”所属的这一类别。人脑的这种思维能力就构成了“模式”的概念。 “模式”是一种抽象化的概念，如“房屋”等都是“模式”，而把具体的对象，如人民大会堂，叫作“房屋”这类模式中的一个样本。

模式识别的应用模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。例如自适应或自组织的模式识别系统包含了人工智能的学习机制；人工智能研究的景物理解、自然语言理解也包含模式识别问题。又如模式识别中的预处理和特征抽取环节应用图像处理的技术；图像处理中的图像分析也应用模式识别的技术。模式识别可应用于文字识别、语音识别、指纹识别、遥感、医学诊断等。

举例：喝酒与练瑜伽的区别喝酒与练瑜伽的作用是否相同是长期争论不休的一个问题，为此需要统计分析。这是一个假设检验问题： H0 ：喝酒= 练瑜伽 H1：喝酒≠ 练瑜伽现取5个样本进行检验。

喝酒2两=练瑜伽半年

喝酒5两=练瑜伽一年

喝酒1斤=练瑜伽5年

喝酒1近半=练瑜伽10年

喝酒2斤=瑜伽大师

结论： P值很大，无理由拒绝原假设。

Statistics are used much like a drunk uses a lamppost: for support, not illumination.

Pattern Classification Statistical Approach Non-Statistical Approach Supervised Unsupervised Decision-tree Basic concepts: Baysian decision rule (MPP, LR, Discri.) Basic concepts: Distance Agglomerative method Syntactic approach Parameter estimate (ML, BL) K-means Non-Parametric learning (kNN) Winner-take-all LDF (Perceptron) Kohonen maps NN (BP, Hopfield, DL) Support Vector Machine Dimensionality Reduction FLD, PCA Performance Evaluation ROC curve (TP, TN, FN, FP) cross validation Stochastic Methods local opt (GD) global opt (SA, GA) Classifier Fusion majority voting NB, BKS

什么是贝叶斯法则统计学中有一个基本的工具叫贝叶斯法则、也称为贝叶斯公式。如果你看到一个人总是做一些好事，则那个人多半会是一个好人。这就是说，当你不能准确知悉一个事物的本质时，你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是：支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。

应用一：S VM分类支持向量机本身是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

线性分类这里我们考虑的是一个两类的分类问题，数据点用 x 来表示，这是一个 n 维向量，w^T中的T代表转置，而类别用 y 来表示，可以取 1 或者 -1 ，分别代表两个不同的类。一个线性分类器的学习目标就是要在 n 维的数据空间中找到一个分类超平面，其方程可以表示为：下面举个简单的例子，一个二维平面(一个超平面，在二维空间中的例子就是一条直线)，如下图所示，平面上有两种不同的点，一种为红颜色的点，另一种则为蓝颜色的点，红颜色的线表示一个可行的超平面。

线性分类图示从图中我们可以看出，这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面。超平面把这两种不同颜色的数据点分隔开来，在超平面一边的数据点所对应的 y 全是 -1 ，而在另一边全是 1 。

最大间隔分类器对一个数据点进行分类，当它的 margin 越大的时候，分类的 confidence 越大。对于一个包含 n 个点的数据集，为了使得分类的 confidence 高，我们希望所选择的超平面hyper plane 能够最大化这个 margin 值。

支持向量由于这些 supporting vector 刚好在边界上，所以满足：而对于所有不是支持向量的点，也就是在“阵地后方”的点，则有：

SVM原理在线性不可分的情况下，支持向量机通过某种非线性映射(核函数)将输入变量映射到一个高维特征空间，在这个空间中构造最优分类超平面。通过映射到高维特征空间，平面上不好分的非线性数据分开了。

核函数通常人们会从一些常用的核函数中选择：多项式核、高斯核、线性核等。如下图所示，高斯核函数将低维线性不可分的数据映射到了高维空间。

举例假设现在你是一个农场主，圈养了一批羊群，但为预防狼群袭击羊群，你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢？你很可能需要依据牛群和狼群的位置建立一个“分类器”，比较下图这几种不同的分类器，我们可以看到SVM完成了一个很完美的解决方案。

SVM Packages Download: http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Installation (Three choices) On Unix systems, type `make' to build the `svm-train' and `svm-predict‘ programs. On other systems, consult `Makefile' to build them Use the pre-built binaries (Windows binaries are in the directory ‘windows'). More details pls refer to the README file

林业管理问题应用举例 Research on the influential factors of forest farmers’ information technology adoption

Pattern Classification Statistical Approach Non-Statistical Approach Supervised Unsupervised Decision-tree Basic concepts: Baysian decision rule (MPP, LR, Discri.) Basic concepts: Distance Agglomerative method Syntactic approach Parameter estimate (ML, BL) K-means Non-Parametric learning (kNN) Winner-take-all LDF (Perceptron) Kohonen maps NN (BP, Hopfield, DL) Support Vector Machine Dimensionality Reduction FLD, PCA Performance Evaluation ROC curve (TP, TN, FN, FP) cross validation Stochastic Methods local opt (GD) global opt (SA, GA) Classifier Fusion majority voting NB, BKS

应用二：K-means聚类与分类不同，聚类是把相似的东西分到一组。对于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”的一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)。而在聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以了，因此 clustering 通常并不需要使用训练数据进行学习，这在 machine Learning 中被称作 unsupervised learning (无监督学习)。

K-means原理 A，B，C，D，E是五个待聚类的点，假设K=2，则随机在图中取2个种子点（灰色的点），以用来寻找点群。

Distance from Point to Cluster Euclidean distance（欧氏距离） Mahalanobis distance （马氏距离）

k-means聚类的弱点 The number of cluster, K, must be determined before hand. When the numbers of data are not so many, initial grouping will determine the cluster significantly. We never know which attribute contributes more to the grouping process since we assume that each attribute has the same weight. 。。。。。。

层次聚类层次聚类，是一种很直观的算法。顾名思义就是要一层一层地进行聚类，可以从下而上地把小的cluster合并聚集，也可以从上而下地将大的cluster进行分割，用得比较多的是从下而上地聚集。所谓从下而上地合并cluster，具体而言，就是每次找到距离最短的两个cluster，然后进行合并成一个大的cluster，直到全部合并为一个cluster。

层次聚类图示

Distance between Clusters Nearest neighbor measure Furthest neighbor measure

举例 dmin dmax A B C A B C

举例 1st col: three data sets 2nd col: dmin 3rd col: dmax

层次聚类+K-means聚类先用层次聚类，然后用K-means聚类，是一种常见的聚类算法，其基本原理在于，用层次聚类算法得到初始化信息，比如可以分成多少个簇，中心点的位置信息等等，这样接下来可以利用这些信息来做K-means聚类。这样的好处是可以解决K-means算法初始中心位置的随机性而且可以减少运算量，因为层次聚类的算法运算量太大无法运用于大规模数据。

林业管理问题应用举例 Forestry Farmers’ Information Demand Characteristics and Classification-Some Practical Views in Fujian Province of China

Pattern Classification Statistical Approach Non-Statistical Approach Supervised Unsupervised Decision-tree Basic concepts: Baysian decision rule (MPP, LR, Discri.) Basic concepts: Distance Agglomerative method Syntactic approach Parameter estimate (ML, BL) K-means Non-Parametric learning (kNN) Winner-take-all LDF (Perceptron) Kohonen maps NN (BP, Hopfield, DL) Support Vector Machine Dimensionality Reduction FLD, PCA Performance Evaluation ROC curve (TP, TN, FN, FP) cross validation Stochastic Methods local opt (GD) global opt (SA, GA) Classifier Fusion majority voting NB, BKS

应用三：FSM建模有限状态自动机（FSM "finite state machine" 或者FSA "finite state automaton" ）是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型。有限状态自动机拥有有限数量的状态，每个状态可以迁移到零个或多个状态，输入字串决定执行哪个状态的迁移。有限状态自动机可以表示为一个有向图。有限状态自动机可以分为：确定的有限状态自动机(DFA) 不确定的有限状态自动机(NFA)

有限状态系统实例指针式钟表共有12*60*60个状态，每过一秒，钟表就从一种状态到另一种状态。围棋共有3361个状态，每走一步棋就从一个状态到另一个状态。电视开电视关打开关闭

淘宝网上购物顾客、店家和支付宝网三方之间的交互限于以下几种事件： 1、顾客告诉店家购买某种物品，决定预付款购物。并将钱款转入支付宝。 2、店家送货给顾客。 3、顾客收到货后，可以选择：（1）确认付款（2）退货（3）换货 4、交易成功，支付宝将这笔钱转帐给店家的帐号。以上的事件以及事件间在一定条件下转化的情况，可以表示成有限状态系统。

选物品预付款已购物送货已收货换货更换物品选物品已购物确认付款认可物品转帐交易结束不认可物品取消选物品预付款已购物确认付款认可物品退货不认可物品换货取消

模型介绍有限状态自动机(finite automaton,FA)是一个五元组： M=(Q，∑， q0，δ，F) Q——状态的非空有限集合。q∈Q，q为M的一个状态。 ∑——输入字母表。输入字符串都是∑上的字符串。 q0——q0∈Q，是M的开始状态（初始状态或者启动状态）。 δ——状态转移函数(转换函数或移动函数)， δ：Q×∑Q，对(q，a)∈Q×∑，δ(q，a)=p表示：M在状态q读入字符a，将状态变成p，并将读头指向输入字符串的下一个字符。 F——FQ，是M的终止状态集合。 q∈F，q称M的终止状态（接受状态）。

M1=({q0，q1，q2}，{0}，δ1，q0，{q2}) 举例有限状态自动机 M1=({q0，q1，q2}，{0}，δ1，q0，{q2}) 其中：δ1(q0,0)= q1 δ1(q1,0)= q2， δ1(q2,0)= q1 S q0 q1 q2 识别 {(00)n|n>=1}

确定的有限自动机对于任意的q∈Q， a∈∑，δ(q，a)均有确定的值，这种FA称为确定的有限状态自动机(deterministic finite automaton，DFA) 例：构造一个DFA，它接受的语言为{x000|x∈{0，1}*}。

不确定有限自动机非确定的有限自动机(Nondeterministic Finite Automata)简记为NFA，是一个五元组 M=(Q,∑,δ,q0 , F)，其中Q、∑、q0和F与确定的有限自动机的含意相同，只是转移函数δ不同，它是从Q×∑到2Q（Q的一切子集的集合）上的映射。例：希望是接受{x|x∈{0，1}*，且x含有子串00或11}的FA。

NFA与DFA的区别 “NFA”与前面定义的DFA，的区别在于： ⑴ 并不是对于所有的(q，a)∈∑×Q,δ(q，a)都有一个状态与它对应；

林业管理问题应用举例 Research on the Implementation Strategy of Forest Insurance in China Based on Multi-agent Simulation

汇报完毕，请批评指正！