目录 第一章 Minitab概要 第二章 管理数据 第三章 操作和计算数据 第四章 使用数据分析和质量工具 第五章 基本操作示例 第二章 管理数据 第三章 操作和计算数据 第四章 使用数据分析和质量工具 第五章 基本操作示例 第六章 做一个简单分析 第七章 高级Minitab 第八章 质量管理和改善 第九章 实验设计
前言 MINITAB 是为质量改善、教育和研究应用领域提供统计软件和服务的先导。是一个很好的质量管理和质量设计的工具软件,更是持续质量改进的良好工具软件。 MINITAB 统计软件为质量改善和概率应用提供准确和易用的工具。MINITAB 被许多世界一流的公司所采用,包括通用电器、福特汽车、通用汽车、3M、霍尼韦尔、LG、东芝、诺基亚、以及 Six Sigma 顾问公司。 作为统计学入门教育方面技术领先的软件包,MINITAB 也被 4,000 多所高等院校所采用。 MINITAB 总部位于State College,PA,USA(美国),在英国和法国设有办事处,在世界各地拥有分销商。 MINITAB 包括: 基础和高级统计 回归和方差分析 时间序列 演示质量的图表 模拟和分布 灵活的数据导入、导出和操纵 SPC (Statistical Process Control - 统计过程控制) DOE (Design of Experiments - 试验设计) 可靠性分析 多变量分析 样本量和幂计算 强大的宏语言 MINITAB — 系统要求 运行 Windows(r) 95/98 或者Windows NT(tm) 4,需要16MB 内存。 处理器为 486 或以上的个人计算机;如使用 486 处理器,特别建议采用数学协处理器。 完全安装需要 35 MB 的硬盘空间 VGA 或SVGA显示器,建议最小分辨率为800 X 600。 需要CD-ROM 驱动器 某些功能需要使用鼠标 本教材是为了配合我们 LG曙光电子 Six Sigma 活动而编写的,主要着重于对 MINITAB 软件包的基本操作和运用,没有深入该软件的介绍和运用,更没有跟随新版软件的升级更新。这些需要使用者自己深入钻研。
第一章 Minitab 概 要 1-1 Minitab系统操作环境简介 1-2 Minitab的工作步骤 1-3 关于Minitab的 Project文件类型
Minitab系统操作环境简介 各MINITAB 窗口作用: 会话窗口 数据窗口 状态条 图形窗口 快捷菜单 历史窗口 信息窗口 工具条 各MINITAB 窗口作用: 会话窗口(Session window)显示诸如统计报表之类的输出文本 。 数据窗口(Data windows)在此可以输入、修改数据和查看每个工作表的数据列。 信息窗口(Info window) 概括了每个打开的工作表。可以从下拉列表框中选择要查看的工作表。 历史窗口(History window )记录了所用过的命令。 图形窗口(Graph windows) 显示各种图形。一次最多只能打开15个图形窗口 。
Minitab的工作步骤 章节 标题 主 要 内 容 进行一个典型的分析往往要经过很多步骤。以下六章讲的就是与此相关的基本分析步骤。每章节主要讲了那一步的一些基本、常见的分析内容。 以下是各章节的列表及内容简述。 章节 标题 主 要 内 容 2 数据管理 在数据窗口中输入和修改数据,从文件中导入数据或 将数据以文件形式保存,生成规则数据。 3 操作和计算数据 在数据窗口中对数据列进行操作,排序、分组和生成 方程式。 4 运用数据分析 从基本的统计到质量管理,运用 一系列的分析 和质量工具 方式。 5 图形数据 生成、修改图形,同时打印并且用各种格式保存图形。 6 管理会话窗, 查看输出文本,并且改变输出文本格式,打印 生成报告 和用各种格式保存。
打开、保存、关闭PROJECT文件 每当保存一个project 文件时,保存了以下一些内容: ■打开一个新的project文件,选择File New, 按Minitab Project, 再按 OK. ■打开一个已有的project文件,选择File Open Project. ■打开一个已有的project worksheet,选择File Open Worksheet. ■保存一个project文件,选择File Save Project ■关闭一个project文件,你必须打开一个新的project文件,或一个已有的 project文件,或者退出。 一个MINITAB Project文件包含了所有的工作:收集的数据、输出的文本、图形等。当保存一个project文件时,所有的东西都保存下来了。 但是一次只能打开一个project文件。Project文件里的各种工作表(data、work- sheet、graph等)可以单独进行处理---可以生成数据、图形,也可以从别的文件中通过拷贝的形式向一个project文件添加数据和图形。Project文件里的大部分窗口的内容都能够单独保存和打印。也可以忽略某些工作表或图形,这样的话,这些工作表和图形便不会保存到project文件中去。 每当保存一个project 文件时,保存了以下一些内容: 一. 所有窗口的内容,其中包括: 1. 每个数据窗口(Data window)的数据列。 2. 信息窗口(Info window)中的常量、矩阵。 3. 会话窗口(Session window)和历史窗口(History window)中 的所有的文本。 4 . 每个图形窗口(Graph window)。 二. 通过命令 FileProject Description 生成的 project 文件注解。 三. 通过命令 Editor Worksheet Descriptions 生成的对每个工作表的注 解。 四. 每个窗口的大小、位置和状态。
Minitab的工作步骤 在对话框中输入变量 变量文本框只容纳列。当光标停于其中时,左边的变量列表框仅显示数据表中的各列 变量列表框中的内容即当前工作表的列、矩阵
Minitab的工作步骤 在对话框中选择变量的几种方法 用鼠标选择一个变量 用鼠标选择多个变量 用键盘选择一个变量 1. 点击需要填写变量的文本框。 2.在变量列表框中用鼠标选择一个变量,然后双击此变量。 用鼠标选择多个变量 1.点击需要填写变量的文本框。 2.点击变量列表框。 3.点击某个变量,用鼠标拖画数个变量,或者按住Ctrl键点击不连续变量。 4.点击 Select 按钮。 用键盘选择一个变量 1.按 Tab 键进入需要填写变量的文本框。 2.按 F2 键,使得变量列表框被激活。 3.使用上下箭头键,选择变量。 4. 再按 F2 键,将所选择的变量便出现在刚才被激活的文本框中了。
第二章 数据管理(Managing Data) 2-1 数据管理概要 2-2 在数据窗口中输入数据 2-3 生成规则数据
数据管理概要 1. 数据保存在工作表中 在MINITAB里,与特定的数据集有关的所有数据都包含在工作表中。一个project 文件允许有许多工作表(工作表的个数取决于计算机的内存大小)。 一个工作表可以包含三种数据类型-----数值型(numeric)、文本型(text)和日期/时间(date/time)型,表现形式为:数据列(columns)、常量(constant)、矩阵(matrices)。可以在多个窗口中察看数据,但大多时候都是在数据窗口中处理数据列。 2. 数据的三种类型:数值型(numeric )、文本型(text)、日期/时间型(date/time) 数值型数据由数字构成,如:1,2,3,5。 文本型数据由以下几种构成:字母、数字、空格和特殊字母如“Test number 4” 日期/时间型数据可以是日期(如Jan-1-2000 或者3/13/1999),时间(例如:09:30:22AM),也可以是二者均有(如:5/13/2000 09:30:25 AM).MINITAB 将日期 和时间以数字的形式存储,但是可以选择任意一种格式来显示。 3. 与数据有关的三个窗口 A.数据窗口(Data window) 数据窗口中的内容即为工作表中的数据列。当打开了多个工作表时,每个工作表都有其自己的数据窗口。
数据管理概要 注意:数据窗口不是电子表格 在每个数据窗口里,可以: 察看处于工作表中的各列数据。 输入数值并以多种方式修改。 对数据列进行多种操作,包括:改变格式、字体、名字、 宽度、注解和列的位置。 例: 打开File Open Worksheet Data MARKETD.MTW 列名 字母T表明 是文本列 字母D表明是 日期/时间列 列号 行号 注意:数据窗口不是电子表格 尽管数据窗口有行和列,但它不像EXCEL那样的电子表格,它的单元格数量是有限的。 而且单元格中的数值只能手工输入或者有命令生成,它不能包含有方程式,它的值不会随其他单元格的值变化而变化。例如:想要C3=C1+C2,首先必须用计算器计算C1+C2的值。如果改变C1的值,若不用计算器再计算的话,C3的值是不会改变的。换而言之,C3不随C1变而变。
数据管理概要 B.信息窗口(Info window) 此窗口对当前活动工作表的数据(数据列、常量、矩阵)进行了概括。可以对这些数据进行修改。 如果要察看另外一个工作表的情况,可以从下拉列表框中选择一个工作表。 如果是文本列,标志为T, 日期列标志为D,其余列为数值型的列 C.会话窗口(Session window) 打开 File Open Worksheet Data ACID.MTW。 选择菜单:Data Display Data, 在 Columns, constants, and matrices to display 框中选入 Acid1 Acid2。 点击 OK 。 选择 Window Session 便能看见会话窗口中的如下内容: Data Display Row Acid1 Acid2 1 0.123 0.109 2 0.109 0.111 3 0.110 0.110 4 0.109 0.110 5 0.112 0.105
在数据窗口中输入数据 在数据窗口中的一个单元格中输入数据,只要点击一下此单元格,然后输入数据,再回车。 每一列单元格一般表示一个变量 输入数据时,该列的数据会自动格式化。当往一空列输入数据时,Minitab会给该列分配一种数据类型:数值型、文本型或者日期/时间型。如果此数据类型不是数值型,Minitab也会在列号后面添加一个标识符加以区分:D表示日期/时间型数据,T表示文本型数据。
在数据窗口中输入数据 一、 在一行、一列或者一块单元格中输入数据 1) 输入一列数据 a. 点击数据方向箭头使之朝下 b. 输入数据,然后按Tab或者Enter键移动当前活动单元格。按Ctrl+Enter组合键,当前活动单元格便跳到了下一列的顶部。 数据方向箭头 注意:输入完一个值回车之后,当前活动单元格往下移动一格。 2) 输入一行数据 a. 点击数据方向箭头使之朝右 b. 输入数据,然后按Tab或者Enter键移动当前活动单元格。按Ctrl+Enter组合键,当前活动单元格便 跳到了下一行的顶部。 注意:输入完一个值回车之后,当前活动单元格往右移动一格。 数据方向箭头
在数据窗口中输入数据 二、生成规则数据 3).输入一块数据 a. 选择一块区域,使之高亮度显示。 b. 输入数据,当前活动单元格仅仅在所选区域内移动。 c. 如果要取消所选区域,可以按箭头键或者用鼠标点击数据窗口的任何地方。 二、生成规则数据 可以按照一定的规则生成数据,如:按顺序生成一简单数据集或按字母顺序生成一列数据。也可以生成规则的日期/时间型数据。 最常见的就是在一列中按照一定的顺序生成数据。如:从1到100的所有整数,或者介于1到50之间的所有偶数。尤其是这一列中的 每个数可以重复,或者整个队列的数据也可以重复。在变量设计分析中,当输入因子水平时,将数据或序列反复多次是非常有用和简便的。
在数据窗口中输入数据 1).生成简单的数字集 1. 选择菜单:Calc Make Patterned Data Simple Set of Numbers. 2. 在Store patterned data in 的文本框中,输入数据列名(此列既可以是新的列,也可以是已经存在的列),此列用来保存所生成的数据。 3. 在From first value(起始值),To last value(最终值)和In steps of (步长,即增量)文本框中输入数字。 4. 若有必要,也可以在List each value (每个值显示的次数)和List the whole sequence (显示整个编列的次数)文本框中输入一个数字。 2). 生成规则数据的几个例子 结 果 From first value To last value In steps of List each value List the whole sequence 从1到100的所有整数 1 100 1 1 1 从10到1的所有偶数 10 1 2 1 1 -0.5,-0.4,-0.3,-0.2,-0.1 -0.5 -0.1 0.1 1 1 11111222223333344444 1 4 1 5 1 11223344551122334455 1 5 1 2 2
第三章 操作和计算数据 3-1 改变列的数据类型和格式 3-2 归类数据并生成相应的子工作表 3-3 叠加列 3-4 对数据进行替换 第三章 操作和计算数据 3-1 改变列的数据类型和格式 3-2 归类数据并生成相应的子工作表 3-3 叠加列 3-4 对数据进行替换 3-3 使用计算器
改变列的数据类型和格式 一、改变列的数据类型和格式 进行分析之前,有时需要重新组织和安排输入到MINITAB里的数据,如:移动或者删除行和列,将一种数据类型转换成另一种数据类型,或者控制数据窗口中数据的显示方式。 还可以基于原始变量之上再创建新的变量。可以合并两列,创建列的子列。 一、改变列的数据类型和格式 数据有三种类型:数值型、文本型、日期/时间型。一列只能包含一种类型的数据。可以给某一空列分配一种数据类型并且改变某一存在列的数据类型。 一旦某一列已经有了一种数据类型的话,还可以为这列指定一种显示格式。当对此列的格式进行修改时,仅仅是改变了它的显示形式而已,并没有改变其真实值。 例如:某一单元格有一个数:1.234567。如果你将其现实形式改成为只显示两位小数,数据窗口中的单元格会显示1.23,在图形窗口上那一点的显示也会为1.23,但是所有的计算都仍会使用1.234567,会话窗口的显示形式则由其所使用的分析命令语句决定,而不是数据窗口中的那种显示格式。 1). 改变列的数据类型 给一空列分配一种数据类型 A.选择Editor Format Column B.选择Numeric,Text,或Data/Time 改变一非空列的数据类型 A. 选择Manip Change Data Type B. 选择要转换的数据类型.. C. 填完对话框,然后点击OK.
改变列的数据类型和格式 2). 改变数值型和日期/时间型的格式 改变数值列中数据的小数位数 A. 选择一列或多列。这些列必 2). 改变数值型和日期/时间型的格式 改变数值列中数据的小数位数 A. 选择一列或多列。这些列必 须是空列(无格式)或者以 数值型格式存在。 B. 选择Editor Format Column Numeric C. 选择Fixed decimal width. 在decimal places文本框中, 输入小数的位 数, 然后点击OK. 改变日期/时间列的数据显示形式 单个的日期/时间数值可以是日期, 时间或者二者兼有。入下列数 据 是有效的 格式: 1/1/96 , 3:04PM, 5/23/2000 5:30PM A. 选择一列或者多列。这些列必须 是空列(无格式)或者以日期/时 间型格式存在。 B. 选择Editor Format Column Date/time. C. 从Date/Time Column Format 文本框中,选择一种格式,
归类并且生成相应的子工作表 二、将数据按不同类别归类并且生成相应的子工作表 在一个比较大的数据集里面,经常需要对一组数据进行分析或生成图形。如:在 某项调查中对女性聚焦,或聚焦于某一季度的销售额。对这些你感兴趣的数据,MINITAB能够另外生成一个子工作表来包含这些数据。 可以基于某种条件来分类,或者对于指定的变量的所有组,分割一个工作表。 1). 按条件分类 例:打开 File Open Worksheet Data MARKET.MTW。 可以基于一个或多个条件对数据分类。如:按两种条件创建一个子集— 季度销售额大于100并且季度广告费用小于15。符合这两个条件的数据行将复到一个新的工作表,原来的工作表仍然没有变动。 按条件分类 A. 选择Manip Subset Worksheet Minitab自动为新工作表给一个缺省名,但是可以随意改动。 按Condition
归类并且生成相应的子工作表 B.在Specify which rows to include/exclude(指定哪行包括或者不包括)下面,选择Rows that match (匹配的行),然后点击Condition(条件),弹出一对话框,如图: C. 在 Condition 一栏,输入条件方程式。例如:想要创建只包含销售额大于100的子集,只要输入 Sales > 100。 在此,可以根据条件,选择一系列数学函数 注意: 如果在Subset主对话框选择了exclude rows的话,上面的方程式所生成的子集包含的数据将会是销售额不大于100的数据。
归类并且生成相应的子工作表 2). 将一个变量按组分割成工作表 在一个变量里,可以根据所有关键字将一个工作表分割成几组。例如:假设有一个关于销售额的工作表,有两列,sales这一列为一个财政季度所有的收入;Quarter这一列即为季度(1,2,3,4)。 如果你是基于变量Quarter来分割工作表,MINITAB会生成四个工作表:第一季度的所有数据,第二季度的所有数据,等等。原来工作表内容不变 。 将一个变量按组分割成工作表 A. 选择Manip Split Worksheet 如果选中了include missing as a BY level,假如在By variables 文本框中的任意列含有空值,MINITAB会生成另外一个工作表。 B. 在By variables一栏,输入一列或多列,这些列即为分组条件。然后点击ok.如果选择了多列,对于这些列的每一种组合所得的数据,MINITAB都会为其生成一个新的工作表。 例如:假设Year这一列有两个数据:1991,1992;Quarter这一列有四个:1,2,3,4。如果在By Variables中选择了Year 和Quarter,Minitab 会生成8个工作表:1991年每个季度一个工作表,1992年每个季度一个工作表。
叠加列 有时候需要将两列合并成一列以便用一条命令对其分析。Minitab能够快速容易的将一列数据叠加于另一列之上。你可以将叠加后的数据用另一列存储而使原来的列保持不便。当叠加列的时候,可以生成一个脚标列标明叠加后的数据是来自于哪一列。脚标还可以用于以后重新分类数据或者生成图形(在图形里数据点因来源于不同的组,显示有所不同)或者将叠加后的数据还原。 叠加列 A. 选择 Manip Stack/Unstack Stack 输入一新列或者已经存在的列来存储脚标。 B. 在 Stack the following columns 中,输入想要叠加的列。输入的第一列将会处于第二列之上,第二列叠加在第三列之上。 C. 在 Stock the stacked data in 一栏,输入一新列或者已经存在的列。
对数据进行替换 可以将一个值转换成另外一个值,或者是将一定范围的值转换成另一个值,也可以将一种数值型的数据转换成另一数值型的数据(例如:把1.0到1.9之间的所有数变成1),文本转换成文本,文本转换成数字或者数字转换成文本。 把数字型数据编码为文本型数据 A.选择 Manip Code Numeric to Text B. 在 Code data from columns 一栏,输入一列或者多列。 C. 在 Into columns,输入一个或者多个新的或已经存在的列。例如:假设没有叫做gender的列,当输入“gender”时,便会创建一个名称为 gender 的列。 D. 在位于 Original values 下方的第一个文本框中,输入一个数值,或者一定范围的值(如1:12表示从1到12). E. 在 New 下方的第一文本框中,输入想要转换成的值。 F. 另外,由此还可看出,一次可以转换8个数值。
使用计算器 使用计算器可以快速的 进行基本的算术运算和复杂的数学函数计算。结果可以保存在某一列中。 使用计算器 A. 选择 Calc Calculator 。 B. 在 Store result in variable 中,输入保存结果的列。 C. 在 Expression 中选择变量和各自的函数。也可以通过手动输入表达式。 例子:使用计算器对列进行计算 1.例:打开 File Open Worksheet Data PULSE.MTW 2. 选择 Calc Calculator 3. 在 Store result in variable 中,输入 pulseDif。 4. 在 Expression 中,输入算式 pulse2-pulse1
使用计算器 5. 点击 OK 后结果如所示: C1 C2 C9 ↓ Pulse 1 Pulse 2 pulse Dif 1 64 88 24 58 70 12 3 62 76 14 4 66 78 12 5 64 80 16 6 74 84 10 7 84 84 … … …
第四章 使用数据分析和质量工具 4-1 概要 4-2 描述性统计 4-3 置信区间和平均值测试 4-4 相关 4-5 回归 4-6 分散分析 第四章 使用数据分析和质量工具 4-1 概要 4-2 描述性统计 4-3 置信区间和平均值测试 4-4 相关 4-5 回归 4-6 分散分析 4-7 表 4-8 质量控制
概要 MINITAB提供了许多统计和图表技法来进行数据分析。常用的方法有: 基本统计 回归 方差分析 实验计划法 管理图 质量工具 可靠度/残差分析 多变量分析 时间序列 表 非参数分析 探测数据分析 本章将会根据一个例子进行工序能力分析,其中包括: 基本统计——描述性统计,一样本 T 检验,相关性 回 归——线性回归 方差分析——One-way ANOVA 表 ——交叉表 管 理 图——X-R图
描述性统计 MINITAB提供了两条命令——Display Descriptive Statistics 和Store Descriptive Statistics, 这两条命令对每一列进行了计算并且将统计结果存储下来了。这些结果可以从会话窗口中显示出来。 显示描述性统计结果 A. 选择 Stat Basic Statistics Display Descriptive Statistics B. 在 Variables文本框中,输入想要进行分析统计的数据列. C. 另外,还可以选择By Variables(具体作用参见下例)和Graph按钮。 一个描述性统计的例子 假如想要对参加脉搏测试的男(sex=1) 女(sex=2)学生进行统计。 1.打开文件:pulse.mtw 。 2.选择 Stat Basic Statistics Display Descriptive Statistics 。 3.在 Variables 一栏,输入 Weight 。 4.选中 By variables 并且在文本框中 输入 Sex ,然后点击 OK 结果如下: Variable Sex N Mean Median TrMean StDev Weight 1 57 158.26 155.00 157.61 18.64 2 35 123.80 122.00 123.74 13.37 Variable Sex SE Mean Minimum Maximum Q1 Q3 Weight 1 2.47 123.00 215.00 145.00 170.00 2 2.26 95.00 150.00 115.00 131.00 结果解释 在会话窗口中的这段文字对体重进行了描述性的统计。因为选中了By variables 为 sex,所以分别对男生(sex=1)女生(sex=2)进行了描述性统计。从结果可以看出:男生体重(mean意思为平均值)大于女生体重(mean=123.80)。 注意: 1.By Variables的意思是对每个关键值(如男和女)分别进行统计计算。 2.Graph 按钮的作用是以图形(直方图、正态曲线的直方图、点图、盒式图(boxplot)的方式表示统计结果。
置信区间和平均值测试 Minitab 提供了一些命令计算一样本或两样本的置信区间以及进行平均值检验。工序能力包括Z-test 值、一样本t-test 值、两样本t-test和配对t-test.Minitab也提供了概率估计和概率差别的方法。另外,当你不知道所收集的数据是否服从正态分布时,MINITAB又提供了计算置信区间和对中央值进行假设检测的方法。下面是一样本t置信区间和平均值假设检验(假设服从正态分布)的一个例子。 计算t置信区间和平均值检验 A. 选择 Stat Basic Statistics 1-Sample t B. 在 Variables 文本框中,输入包含样本的列,Minitab将对样本的每一列进 行单个分析。 C. 以下二者中任选一项: 若计算平均值的置信区间,选中 Confidence interval。 若进行假设检验,选中 Test mean。 D. 若想更进一步,还可以使用下面的选项: 为置信区间指定一个置信度。缺省值为95%。 指定一个原假设检验值。缺省值为:μ=0 通过选择小于(<)、大于(>)、不等于(≠),定义选择性假设。
置信区间和平均值测试 T置信区间的一个例子 假设根据测得的样本数据(脉搏测验),想要得到平均值95%的t置信区间。 1. 打开文件 PULSE.MTW。 2. 选择 Stat Basic Statistics 1-Sample t 3. 在 Variables 文本框中,输入 Pulse1,点击 OK。 Session window 输出: T Confidence Intervals Variable N Mean StDev SE Mean 95.0 % CI Pulse1 92 72.87 11.01 1.15 (70.59, 75.15) 结果解释 根据输出结果,估计其平均值为72.87,有95%的把握认为真值落在 区间(70.95,75.15)。
相关(correlation) 使用回归对成对变量计算相关系数和相关性。 相关系数是衡量两个变量之间线性关系的程度。其值介于-1与+1之间。如果一个变量随另外一个变量减少而递增的话,那么相关系数为负值;相反的,如果这两个变量同时增加或同时减小,那么相关系数为正。 计算两列的相关性 A. 选择 Stat Basic Statistics Correlation B. 在 Variables 文本框中,输入包含测量数据的列,MINITAB 便会计算两两列之间的相关性。
相关(correlation) 相关性的一个例子 假设要分析学生身高与体重的关系。 1.打开文件 PULSE.MTW。 2.选择 Stat Basic Statistics Correlation 3.在 Variables 文本框中,输入 Height 和 Weight .点击 OK。 Session window 输出: Correlations: Height, Weight Pearson correlation of Height and Weight = 0.785 P-Value = 0.000 结果解释 根据输出结果,相关值(r=0.785,P-Value=0.000)表明身高与体重正相关。
回归(regression) 回归分析用于找出反应值(Y)与一个或者多个预测值(X)之间的关系。 怎样做一个线性回归 A. 选择 Stat Regression Regression。 B. 在 Response 文本框中,输入包含反应值(Y)的列。 C. 在 Predictors 的文本框中,输入预测值(X)变量。
回归(regression) 运行一个简单线性回归的例子 假设想要找出体重与身高的关系 1. 打开文件 PULSE.MTW 2. 选择 Stat Regression Regression 3. 在 Response 文本框中,输入 WEIGHT。在 Predictors 中,输入 Height 。然后点击 OK 。 Regression Analysis: Weight versus Height The regression equation is Weight = - 205 + 5.09 Height Predictor Coef SE Coef T P Constant -204.74 29.16 -7.02 0.000 Height 5.0918 0.4237 12.02 0.000 S = 14.79 R-Sq = 61.6% R-Sq(adj) = 61.2% Analysis of Variance Source DF SS MS F P Regression 1 31592 31592 144.38 0.000 Residual Error 90 19692 219 Total 91 51284 Unusual Observations Obs Height Weight Fit SE Fit Residual StResid 9 72.0 195.00 161.87 2.08 33.13 2.26R 25 61.0 140.00 105.86 3.62 34.14 2.38R 40 72.0 215.00 161.87 2.08 53.13 3.63R 84 68.0 110.00 141.50 1.57 -31.50 -2.14R R denotes an observation with a large standardized residual 结果解释 P值等于0,表明体重是身高的一个显著性因子,R2 等于61.6%表明此模型在反应值中所占的比率。
分散分析(ANOVA) 分散分析(ANOVA)把比较两样本总体均值的 T-test 扩充到比较多于两个均值的test。 MINITAB的ANOVA包括一次、二次或者更为复杂的ANOVA模型、等变量检验等。当按照单个变量进行分类时,一个一次ANOVA检验总体均值的相等性。下面我们举一个例子,说明当反应值数据在一列而区分总体的水平值在另一列时,怎样进行数据分析。如果你在工作表中将每个总体的数据置于不同的列,可以运用 ONE-WAY 命令。 怎样做one-way ANOVA A.选择 Stat ANOVA One-way B.在 Response 中,输入包含反应值的列。 C.在 Factor 中,输入包含因子水平的列。 一个 one-way ANOVA 分析的例子 1.打开文件 PULSE.MTW 2.选择 Stat ANOVA One-way 3.在反应值Response中,输入 Weight, 在 Factor 中,输入 Sex。 4.点击 Graphs。 5.选中 Boxplots of data 和 Normal plot of residuals。 点击OK两次后,会话窗内容如下:
分散分析(ANOVA) Boxplots of data 和 Normal plot of residuals 如下: 结果解释 One-way Analysis of Variance Analysis of Variance for Weight Source DF SS MS F P Sex 1 25755 25755 90.80 0.000 Error 90 25529 284 Total 91 51284 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev --+---------+---------+---------+---- 1 57 158.26 18.64 (--*-) 2 35 123.80 13.37 (---*--) --+---------+---------+---------+---- Pooled StDev = 16.84 120 135 150 165 Boxplots of data 和 Normal plot of residuals 如下: 结果解释 分散分析输出结果和盒式图(boxplot)清楚地表明,女性和男性的体重是不一样的。F统计值比较大而p值比较小,表明男女存在统计上显著性差异。女性体重平均值的95%置信区间介限于 118和130之间但是对于男性而言,95%置信区间介于155和162之间.
表(table) 使用 Minitab制表功能,可以将数据以表的形式归纳出来,或者对这些数据进行进一步的分析。也可以进行各种各样的统计,或者进行 Χ2 检验,也可以进行简单或者复杂的相应的分析。交叉表格可以显示一次,二次,多次表格数据。在这些表格里,包含常量、百分数、统计数据,例如平均,标准偏差,最大值以及相关变量。 怎样创建一个统计表格 A. 选择 Stat Tables Cross Tabulation。 B. 以下二者任选其一: ※ 对于原始数据,在 Classification variables 中,输入两到十个包含原始数 据的列。 ※ 对于频率数据, a. 在 Classification variables 中,输入两到十个包含分类数据的列。 b.选中 Frequencies are in 并且输入包含频率数据的列。
表(table) 1.打开文件 PULSE.MTW。 2.选择 Stat Tables Cross Tabulation。 一个显示各列百分比的 二次表的例子 假设你要对不同程度吸烟者的数量及各所占比率进行统计。 1.打开文件 PULSE.MTW。 2.选择 Stat Tables Cross Tabulation。 3.在 Classification variables 中,输入 Smokers 和 Activity。 4.选中 Column percents 然后点击 OK 。 Tabulated Statistics: Smokes, Activity Rows: Smokes Columns: Activity 0 1 2 3 All 1 100.00 33.33 31.15 23.81 30.43 2 -- 66.67 68.85 76.19 69.57 All 100.00 100.00 100.00 100.00 100.00 Cell Contents -- % of Col 结果解释 行表示Smokers 变量:1表示经常吸烟者而2表示不常抽者。列表示水平程度:1=轻微,2=中等,3=许多(这里的0水平是因为测量者误输入),轻微抽烟者占1/3,抽烟量最大者占1/4。
质量控制 Minitab提供了多种质量管理方法:管理图、质量计划工具、测量系统分析、工序能力和可信度。 管理图或者统计工序管理图(SPC)可以对工序整个时间的变动进行分析。根据样本数据,这些图表生成了一些总的统计(例如:样本平均值或样本概率)。下面是经常使用的X-R图。从字面意思可知,此图表在一个图形窗口中通常有两个图:一个是子集平均值的管理图(X )、一个是子集范围的管理图(R),同时查看这两个图,可以跟踪工序水平和工序变动,还可以看出特殊原因的表现。 子集数据可以由单列或者穿过几列的数行构成。当子集数据尺寸不唯一时,子集数据最好由单列构成,然后建立另一列作为此子集的标志列。 怎样创建一个X-R图 A. 选择 Stat Control Charts Xbar-R B.以下二者任选其一 1. 如果子集处于一列,在 Single column 中输入数据列。在 Subgroup size 中,输入子集尺寸或者子集标志列。 2. 如果子集处于行中,在 Subgroups across rows of 中输入一系列列。如果有必要,可以点击 Option,可以作如下选择: 如果对于μ和σ有一个目标值或者根据以前的数据知道这几个参数,则输入μ的历史值(总体分布的平均值)和σ(总体分布的标准偏差) 控制 Minitab 估计μ和σ值的方式。 对于特殊原因做8个检验。 当出现了偏移数据时,使用 box-cox 转换。
质量控制 X-R图的一个例子 一制造车间制造金属固定件,需要估计其工序能力(目标值:2.4克),力求固件的重量变动最小。这些固件5个一包。随机选择20包画出X-R图,估计他们的制造工序管理情况。 1.打开文件 FASTENER.MTW。 2.选择 Stat ControlCharts Xbar-R。 3.在 Single column 中,输入 Weights。在 Subgroup size 中,输入5。 4.在 Historical mean 中输入 2.4,点击 OK 。 Test Results for Xbar Chart TEST 1. One point more than 3.00 sigmas from center line. Test Failed at points: 10
质量控制 结果解释 特殊原因检验表明只有一包的平均重量处于规格下限以下(低于目标值 3个标准偏差-3σ)。但是又注意到许多点落在中心线以下,表明此工序生产的固件经常低于目标值。质量工程师还得进行另外的特殊原因检验或者重估此工序。
第五章 基本操作示例 5-1 事例背景 5-2 打开一个工作表 5-3 从键盘输入数据 5-3 输入规则数据 5-4 描述性统计计算 第五章 基本操作示例 5-1 事例背景 5-2 打开一个工作表 5-3 从键盘输入数据 5-3 输入规则数据 5-4 描述性统计计算 5-5 算术运算 5-6 生成散点图 5-7 计算相关系数
事例背景 在这一章里,你可以知道怎样: 实验背景 克隆是单个基因细胞从同一个体繁衍而来。研究人员发现一种单性克隆物(生长快而且质硬的树),这些树某天也许会当作一种能源而取代传统燃料。宾夕法尼亚州立大学的研究人员在两个不同的地方,种植了一些白杨树,一个地方在小溪旁,土质肥沃,灌溉系统好;另一个地方是山地,土壤干燥,呈现沙性。他们以厘米为单位测量直径,以米为单位测量高度;然后把它烘干,测量它的重量。研究人员想知道,他们能否根据直径和高度,预测它的重量。 在这一章里,你可以知道怎样: 一、打开一个工作表 二、输入和编辑数据 三、保存数据 四、基本统计计算 五、数学运算 六、画数据图 七、计算相关系数
打开一个工作表 步骤一、打开一个工作表 当你打开 Minitab 时,便开始了一个新而且空的 Project。可以通过多种方式向此 Project 里添加数据,但是最为普通的方式是打开一个工作表。只不过有一点要注意,打开工作表只是将数据拷贝到此 Project 里,对于Project 里任何数据的变化都不会影响到原始数据。 在这一节,使用的数据在文件POPLAR1.MTW里。 1. 选择文件 FILE Open Worksheet。 2. 找到子目录 DATA。 3. 点击 POPLAR1.MTW,打开。 4. 如果未见到数据窗口,按快捷键 Ctrl+D。 这个工作表包含三个变量,分别为:Diameter,Height,Weight。每个变量包含15个值——到目前为止只有这么多。
从键盘输入数据 步骤二、从键盘输入数据 到目前为止只有这么多数据,但是又从现场收集到了5行数据,需要通过键盘来输入。 1. 将光标放到第16行。数据窗口应当为下面式样: 数据方向箭头 2. 确保数据方向箭头向右. 3. 从左到右输入以下数据: 1.52 2.9 0.07 4.51 5.27 0.79 1.18 2.2 0.03 3.17 4.93 0.44 3.33 4.89 0.52 Enter Enter Ctrl + Enter Enter Enter Ctrl + Enter Enter Enter Ctrl + Enter Enter Enter Ctrl + Enter Enter Enter Ctrl + Enter
输入规则数据 步骤三、输入规则数据 一般是在数据窗口中通过键盘输入数据,但是当数据按照一定的规则时,还有一个简便的办法输入。 现在要创建一个新的变量来标明所测数据值是来自于土壤肥沃、排水系统好的地方(记为1)还是来自于干燥多沙的地方(记为2)。 这个新的变量叫做Site,将包含10个“1”,然后是10个“2”。 选择 Calc Make Patterned Data Simple Set of Numbers。 保存数据于:在 Store patterned data in 中输入 Site 。Minitab 自动分配一个新的变量给第一个空列。在这里是 C4。 为了标明开始和结束顺序,在 From first value 中输入 1,在 To last value 中输入 2 。 既然有 10个1和 10个2,在 List each value 中,输入 10 ,然后点击 OK 。新生成的数据如下:
描述性统计计算 步骤四、描述性统计计算 Minitab提供了许多基本统计方法进行数据分析,例如描述性统计、t检验、z检验以及相关性。 对于两个不同地方的树,应当分别生成统计表对三个变量Diameter、Height 和 Weight 进行说明。 选择Stat Basic Statistics Display Descriptive Statistics。 在变量列表框中,点击 Diameter 然后拖曳鼠标使 Diameter、Height、Weight 高亮度显示,然后点击 Select 。 选中By variable,输入 Site。通过 Minitab 对不同地方的树在直径、 高度、重量上分别生成统计结果。 点击 Graphs。 5. 选中 Boxplot of data,然后点击OK两次。
描述性统计计算 从盒式图(boxplot)可以判断出,地方2的树比地方1的树大。会话窗口的文本输出包含以下信息: Descriptive Statistics: Diameter, Height, Weight by site Variable site N Mean Median TrMean StDev Diameter 1 10 2.598 2.320 2.604 0.916 2 10 3.028 3.250 3.041 1.284 Height 1 10 4.098 4.120 4.175 1.103 2 10 4.255 4.865 4.351 1.254 Weight 1 10 0.3090 0.2050 0.2863 0.2528 2 10 0.399 0.380 0.356 0.366 Variable site SE Mean Minimum Maximum Q1 Q3 Diameter 1 0.290 1.060 4.090 2.120 3.245 2 0.406 1.180 4.770 1.488 4.053 Height 1 0.349 1.850 5.730 3.518 4.853 2 0.396 2.200 5.540 2.775 5.143 Weight 1 0.0800 0.0200 0.7800 0.1575 0.4600 2 0.116 0.030 1.110 0.063 0.648 Boxplots of Diameter by site Boxplots of Weight by site 5 1.0 e r 4 t e t m g h a 3 e i D i W 0.5 2 1 0.0 site 1 2 site 1 2 Boxplots of Height by site 6 5 h t g e i 4 H 3 2 site 1 2 从盒式图(boxplot)可以判断出,地方2的树比地方1的树大。会话窗口的文本输出包含以下信息: 在地方2三个变量都显示出比较大的平均值和中央值。而且,变量Weight相对其尺寸来说有一个比较大的标准偏差。在地方2,最小重量只有0.03kg而最大值是1.11kg,这表明一部分白杨树生长得很好,可是其他的仅仅只是活着而已。
算术运算 步骤五、进行算术运算 现在的任务是估计树的重量。根据以前的工作,研究人员发现树的重量和直径平方与高度之积有关。手头有直径和高度的数据,利用计数器计算新的变量。计数器将输入的方程式结果计算出来并保存于指定的变量。 1. 选择 Calc Calculator。 2. 将新的变量命名为D2H,表示直径的平方与高之积。在 Store result in variable 中,输入 D2H . 3. 在 Expression中,键入 C1**2*C2 ,点击 OK 。 计算结果显示如下:
生成散点图 步骤六、生成散点图 研究人员得出在重量与D2H之间存在一种关系。通过散点图,可以验证这一点。 1. 选择 Graph Plot。 2. 在 Y 中,输入 Weight . 3. 在 X 中,输入 D2H 然后点击 OK 。 图形窗口输出结果: 100 50 1.0 0.5 0.0 D2H W e i g h t 不规则点 由此可以看出,Weight和D2H之间存在正的线性关系,也就是说,D2H增加的话,Weight也同样增加。图上出现了一个不正常点:有一棵树只有很小的重量,但D2H值却相当高。现在将其忽略,但以后还得进一步检查。下一步是计算这二者的相关性并且将其量化。
计算相关系数 步骤七、计算相关系数 从散点图知随着D2H增长,WEIGHT也同样增长,现在通过计算相关系数找出这两个变量的具体关联性。 1. 选择 Stat Basic Statistics Correlation. 2. 在 Variables 中,输入 Weight 和 D2H,点击 OK 。 会话窗口输出: Pearson correlation of Weight and D2H = 0.913 P-Value = 0.000 相关系数是两个变量之间线性关系的度量,其值介于-1和+1之间,此处,相关系数为正的0.913,接近于1,从而把散点图中所表示的关系量化了。说明变量 WEIGHT和D2H 之间存在很强的线性关系。
第六章 做一个简单分析
背景 宾夕法尼亚州立大学的研究者们种植了成百上千的白杨树并且在一系列受控条件下让其生长.三年后,抽取一批为样本,以厘米为单位测量其直径、以米为单位测量其高度、千克为单位称其干重。 前面知道,在干重与D2H之间存在相近的关系。但是到底是一种怎样的关系呢?这些快速生长、质地坚硬的树,将来某一天也许会作为燃料或者化学物质的一种选择。作为数据分析员,知道了直径和高度的测量值之后,能否可靠的预测出树的产量。 步骤一. 打开文件 POPLAR2.MTW。 步骤二. 做一个简单的回归分析 在上一个示例结尾,我们知道随着D2H增加,Weight也增加。由D2H的值预测Weight的一种方法是使用简单的回归命令。 选择 Stat Regression Regression 在 Response 中,输入 Weight。 在 Predictors 中,输入 D2H。不妨还做一系列残差分析图,以便找出潜在的问题。 点击 Graphs。
在 Residuals for Plots下,点击 Standardized。 在 Residuals Plots ,点击 Histogram of residuals 和 Normal plot of residuals。 在 Residuals versus the variables下,输入 D2H。 点击 OK 两次。 Minitab便显示会话窗口中的文本、三个图形。
Regression Analysis The regression equation is Weight = 0.0196 + 0.00758 D2H Predictor Coef StDev T P Constant 0.01961 0.04566 0.43 0.673 D2H 0.0075838 0.0007994 9.49 0.000 S = 0.1298 R-Sq = 83.3% R-Sq(adj) = 82.4% Analysis of Variance Source DF SS MS F P Regression 1 1.5155 1.5155 89.99 0.000 Residual Error 18 0.3031 0.0168 Total 19 1.8187 Unusual Observations Obs D2H Weight Fit StDev Fit Residual St Resid 12 126 1.1100 0.9756 0.0717 0.1344 1.24 X 15 74 0.0700 0.5779 0.0374 -0.5079 -4.09R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence.
Minitab 显示了两个不规则的数据(12行和15行),进一步分析之前,首先要检查12行和15行是否包含了有效的数据。 不规则点 Minitab 显示了两个不规则的数据(12行和15行),进一步分析之前,首先要检查12行和15行是否包含了有效的数据。
步骤三 、编辑数据 按键 Ctrl+D 找到第一个不规则点。 选择 EditorGo To。 在 Enter column number or name 中,输入 WEIGHT 在 Enter row number 中,输入 12,点击 OK。在数据窗口中,光标置于12行 weight 单元格。 可以看出,Weight 和D2H看上去显得相当大,然后再检查原始记录,发现12号树生长很好,说明此数据正确。按照同样的方法,找到第15行。检查原始记录,发现这个数据错误,不是0.07,而是0.7。
2. 选择 Stat Regression Regression 。 简单的重复一下前面的菜单选择。 1. 首先关闭所有图形窗口。 2. 选择 Stat Regression Regression 。 Regression Analysis The regression equation is Weight = 0.0200 + 0.00829 D2H Predictor Coef StDev T P Constant 0.01999 0.01365 1.46 0.160 D2H 0.0082897 0.0002390 34.68 0.000 S = 0.03880 R-Sq = 98.5% R-Sq(adj) = 98.4% Analysis of Variance Source DF SS MS F P Regression 1 1.8108 1.8108 1202.89 0.000 Residual Error 18 0.0271 0.0015 Total 19 1.8379 Unusual Observations Obs D2H Weight Fit StDev Fit Residual St Resid 12 126 1.11000 1.06492 0.02142 0.04508 1.39 X 17 107 0.79000 0.90858 0.01740 -0.11858 -3.42R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence. 如果有一个比较好的模型并且对所有的统计假设都感到满意的话,那么可以直接抽取一部分作白杨树为样本, 测量直径和高度,然后预测其重量,而不用把树砍下来再去称量。 由此回归输出结果可以看出,在系数表中,D2H有一个比较高的T值和很小的P值,有足够的理由说明D2H和Weight之间存在很强的关系。 在变量分析表中比较大的F统计值和值比较小的P值将这种关系量化.R的平方(R-Sq)以及R的调和平方(R-Sq(adj))的值都大于98%,进一步证明D2H与Weight之间存在很强的线性关系。 在下最后结论之前,再看一下图表。
从图表Residuals versus D2H知道变动并未呈现出常数—此即符合一个很重要的回归假设模型。在比较大的D2H值处,标准残差也比较大.基于时间因素,以后章节还要进一步讨论。
步骤五、画一条合适的回归线 下一步,画一个带回归线的散点图来看看那些测量的数据与回归线的接近程度。 1. 选择 Stat Regression Fitted Line Plot。 2. 在 Response(Y)中,输入 Weight。 3. 在 Predictor(X)中,输入 D2H,点击 OK。 输出结果如下:
步骤六、通过Brush(刷)图形找特殊点 图形上有一点,其D2H值很大,想知道这到底是一个什么样的点。Brush可以快速方便的找到这一点。 1. 选择 Editor Brush。 2. 在图形上将手状的图标圈住特殊点。特殊点便会显示出来,同时在数据窗口里相应的行上做一个标记。 刷板 要找的点
第七章 高级Minitab
背 景 从这些种植的树木中真正能预计到多少可以当作能源的材料呢?又怎样将产量最大化呢? 为了将产量最大化,研究人员设计了一个实验来决定地点的不同(Site)和条件的不同(Treatment)这两个因素是怎样影响四年生白杨树的重量的。 他们将树种植在两个地方:Site1和Site2。Site1土壤肥沃、湿润,而Site2干燥多沙。他们将这些树分成四种条件培育。条件1(Treatment1)只是控制(无条件)、条件2(Treatment2):施肥;条件3(Treatment3):灌溉;条件4(Treatment4):既施肥又灌溉。考虑到各种气候的影响,研究人员在第一年种植一半的树,第二年种植另外一半,从而获得两分数据。 为了进行分析,需要对样本数据进行统计分析。 步骤一、生成一个新的Project。 FileNew,点击 Minitab Project,然后点击 OK。 步骤二、打开一个工作表 1. File Open Worksheet。 2. 找到子目录Data,选择文件 POPLAR3.MTW。点击 OK。 3. 有两个窗口显示了关于此工作表的信息。 此数据窗口包含7个变量:Site、Year、Treatment(实验条件)、Diameter(cm)、Height、Weight、Age。
为了产量最大化,需要聚焦哪个因素对重量的影响最大。先看一下变量Weight的描述性统计。 信息窗口 步骤三、生成描述性统计 为了产量最大化,需要聚焦哪个因素对重量的影响最大。先看一下变量Weight的描述性统计。 选取Stat Basic Statistics Display Descriptive Statistics. 在窗口Vaibles 中选取Weight. Descriptive Statistics Variable N Mean Median TrMean StDev SE Mean Weight 298 1.099 1.640 1.994 10.255 0.594 Variable Minimum Maximum Q1 Q3 Weight -99.000 6.930 0.597 3.455 看看Weight的最小值。很明显,重量不可能出现-99千克。事实上,在此,收集数据的时候,用-99表示已经死亡的树。 如果把-99留在数据表中,那么所做的分析也是错的。事实上,刚才所做的描述性统计也受到了一定影响。平均值和中央值人为的偏低而标准偏差人为的偏高。需要将 -99转换成空值。 空值并不影响统计分析的结果。在MINITAB 中,空值用星号“*”代替。
1. 选择 ManipCode Numberic to Numeric 步骤四、对数据进行替换 MINITAB提供了许多数据操作工具。最常用的一个就是CODE命令,它的作用是将一个数值用另一种形式的值表示。在这里,要把-99变成*——空值的符号。 1. 选择 ManipCode Numberic to Numeric 2. 在 Code data from columns 中,输入 Weight。 3. 在 Into columns 中,输入 Weight。这样将会用新值代替原有的值。 4. 在 Original values 中,输入 -99。此即要改变的值。 5. 在 New 一栏,输入星号 * 。然后点击 OK 。在数据窗口变量 Weight 栏中,可以看到所有出现 –99 的地方都被星号 * 代替。 步骤五、Tally数据 在此实验中,每个年龄的树数量各是多少呢?使用tally命令可以帮你知道。 1. 选择 stat tables tally。 2. 在 Variables 中,输入 Age。点击 OK。输出结果如下: Summary Statistics for Discrete Variables Age Count 3 147 4 151 N= 298 输出结果表明三年树龄的有147棵,四年树龄的有151棵。
步骤六、根据树龄分割数据表 假设只要对四年生的树进行分析。下面是只对四年生的数据创建新的数据集的一种技巧。对四年生的树建立一个单独的数据表 1 选择 Manip split worksheet。 2. 在 Variables 中,输入 age 。点击 OK。 Minitab将回根据 age 值分割工作表poplar3.mtw。因为在age列,只有两个可区分值:3和4。Minitab便生成2个新的工作表。一个工作表只包含三年生的,命名为poplar3.mtw(age=3),另外一个是四年生的,命名为poplar3.mtw(age=4)。将其重新命名: poplar4.mtw(age=4)命名为 4YROLDS.MTW。 步骤七、用直方图检验正规性 现在对变量weight生成一个直方图 1. 首先将数据窗口4YROLDS.MTW激活,使之成为当前窗口。 2. 选择 Graph Histogram。 3. 在 X 中,输入Weight。点击 OK 。
白杨树的重量近似与正态分布(即有点像钟型)。 步骤八、用盒式图(boxplot)根据条件(treatment)变量的不同对weight(重量)变量进行比较。 现在我们来看一下不同条件下的白杨树重量。盒式图是比较一个变量各个水平差异的一种很好的图形法。 1.选择 Graph Boxplot。 2.在 Y 中,输入 Weight。 3.在 X 中,输入 Treatment。这样的话,Minitab会对各个水平条件 treatment 下的weight分别生成盒式图(boxplot)。 4.点击 OK 。
5. 选择 Edit Edit Last Dialog。 6. 在 X 中,输入 Site。 7. 点击 OK。 四分之三 四分之一 中央值 横贯每个盒子(box)的线条表示数据的中央值或者中间值。上面的顶线和下面的底线分别表示75%和25%。此盒式图表明在treatment2和treatment4(施肥和施肥/灌溉)下,树木生长得很好,重量比较大,但是在treatment1和treatment3(管理和灌溉条件)下,树木长得比较轻。同样,我们再来看看地点的不同对重量有什么影响。地点1的树是种植在肥沃、排水系统好的土壤里,应当说来比起种植在地点2(干燥多沙的土壤)中的树要长得好。下面通过盒式图来比较一下地点的不同对重量有何影响。 5. 选择 Edit Edit Last Dialog。 6. 在 X 中,输入 Site。 7. 点击 OK。 奇怪的是,地点1和地点2树的重量看上去没有明显的不同,虽然每个地方的散布不同,但是中央值几乎相同。
步骤九、分散分析 从以上的盒式图已经看出,白杨树的重量在四种条件下明显不同,但是对于两个地点来说,重量的差别不是很明显。 现在决定使用变动分析看看对于因子site和treatment的不同水准,重量是否存在统计上的显著性差异。 当有两个或者两个以上的因子时,minitab会给你两种选择:对称ANOVA和一般线性模式(GLM)。对称ANOVA必须是对称设计, 也就是说,对于每个site 和treatment的组合必须有同样数量的观测值(即: site有两个值,treatment也必须有两个)。在这里,因为我们的设计不是对称的,所以使用一般线性模式。 1. 选择 Stat ANOVA General Linear Model。 2.在 Responses 中,输入 Weight。下一步,输入适合的GLM模式。 3.在 Mode中输入 Site|Treatmnt。这根竖线的意思是告诉 Minitab,在此模式中要包括所有可能的交互作用。此竖线的输入,可以通过按键 Shift + \,或者直接使用感叹号“!”代替。 4.点击 OK 。
在这个模式中,GLM列出了每个因子以及每因子的水平数,然后列出了变动分析表,最后是不规则数据表。 General Linear Model Factor Type Levels Values Site fixed 2 1 2 Treatmen fixed 4 1 2 3 4 Analysis of Variance for Weight, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Site 1 3.112 2.424 2.424 1.52 0.219 Treatmen 3 78.005 78.275 26.092 16.39 0.000 Site*Treatmen 3 10.509 10.509 3.503 2.20 0.091 Error 140 222.873 222.873 1.592 Total 147 314.498 Unusual Observations for Weight Obs Weight Fit StDev Fit Residual St Resid 22 0.35000 2.91200 0.28213 -2.56200 -2.08R 42 0.64000 3.34167 0.29739 -2.70167 -2.20R 43 0.16000 3.34167 0.29739 -3.18167 -2.59R 52 0.66000 3.52250 0.28213 -2.86250 -2.33R 64 2.36000 4.90889 0.29739 -2.54889 -2.08R 69 2.12000 4.90889 0.29739 -2.78889 -2.27R 72 5.82000 3.34167 0.29739 2.47833 2.02R R denotes an observation with a large standardized residual. 在这个模式中,GLM列出了每个因子以及每因子的水平数,然后列出了变动分析表,最后是不规则数据表。 假设要对此模式中的每个影响进行 F-test。例如:要验证原假设(条件的影响对于两个地点是相同的—Site*Treatment的交互作用),用Minitab的P值与最常用的0.05水平值进行比较。因为p-value为0.091,它大于0.05,所以你不能拒绝原假设。也就是说,不能得出“条件对地点的影响不同”的结论。 现在看看Site和Treatment的主效果。Site的p值是0.219,同样大于0.05,所以也不能得出“树的重量在两个地点之间存在显著性差异”的结论。而Treatment的p值很小,只有0.000,因此可以说对于不同的条件,树的平均重量存在显著性差异。 这与以前画的盒式图是相吻合——树的重量在不同条件下不同,而对于两个地点来说只存在轻微的差别。在作出“条件是影响重量的唯一重要因子”结论之前,再看看年份对于重量的影响——别忘了,研究人员分两年种植了这批树。
步骤十、用盒式图(boxplot)根据年份对重量进行比较 1.选择 Graph Boxplot。 2.在 Y 中,输入 Weight。 3.在 X 中,输入 Year。意思是根据年份分别画出重量的盒式图(boxplot) 。请看一下Data Display表中的头两行。IQRange Box告诉Minitab显示盒式图(boxplot)的时候,显示25%~75%这一段的百分比范围。Outlier Symbol的意思是将所有超出范围的值用星号*表示。现在还想在 IQ Range Box里显示置信度的盒式图。 4.在 Data display 表中的display列,点击第三项。 5.点击 Display 右边的下拉箭头,选择 CI Box。 6.点击右边的单元格。 7.点击 For each 右边的下拉箭头,选中 Graph。意思是叫 Minitab在每个盒式图中包含置信度。缺省的情况下,Minitab用垂直方式画盒式图,但是可以画成水平状。 8.点击 Options。 9.选中 Transpose X and Y,点击 OK 两次。
里面的盒子显示了中央值95%的置信度。盒式图表明种植在第二年的树比 了95%的置信度 里面的盒子显示了中央值95%的置信度。盒式图表明种植在第二年的树比 第一年的要重。分两年种植只是为了重复一下数据,为什么年份很重要呢?经过采访研究人员知道,在第一年里他们没有施加除草剂来控制杂草,结果有些树不是死了就是缺少养分。为了提高其成活率,研究人员决定对第二年的树施加除草剂。通过分析,得出三个主要结论: 1. 施肥是提高重量的一个行之有效的办法。 2. 在树的成长初期,控制杂草很重要。 3. 虽然白杨树对地点的要求不是很高,为了提高实际产量,给予适当的生长和营养条件。第二年的树不但重一些,而且分布也比较均匀些。在建议使用除草剂和施肥之前,还得仔细看看第二年的树。
步骤十一、快速重复一遍所有的分析。 现对第二年的树重复一遍分析。首先要把四年生的数据分开出来,然后使用历史窗口和命令行编辑器(Command Line Editor),而不是重复使用一个一个的对话框。 A.根据年份值将POPLAR3工作表分割开。 1.确定 POPLAR3.MT W当前活动工作表。 2.选择 Manip Split Worksheet。 3.在 By variables 中,输入 year.点击 OK。 B.重新命名 4.点击新的工作表POPLAR3.MTW(Year=2),重新命名为YEAR2.MTW。点击OK。 C.对树龄为2的重复一遍分析 5.打开历史窗口:选择Window History。 6.拖窗口的滚动条到命令“Histogram”出现。 7.从Histogram到最后的内容全部选中。 8.选择Edit Command Line Editor。出现一个对话框,包含了刚才所选中的内容。 9.点击 Submit Commands。整个分析:重量的直方图、不同条件下重量的盒式图、不同地点重量的盒式图、变动分析、根据年份重量的盒式图到此全部做完。
第八章 质量管理和改善
背景 假设你在汽车制造工厂的一个引擎组装部门工作。其中有一个组件是凸轮轴,长度规格是600±2mm,长期以来一直存在一个问题,凸轮轴的长度总是超出规格,由此导致组装线适合度下降、磨损和返工率上升。 作为管理者,需要通过X和R图来监控这些特性。一个月里,对凸轮轴的长度数据以每5个为一组进行了收集。 步骤一、生成一个新的Project。 步骤二、打开一个工作表 1. 选择 FileOpen Worksheet 2. 在DATA子目录下选择 CAMSHAFT.MTW。点击 OK。 这就是一个月里所收集到的数据。注意到第一列,它包含了100个观测值(20个样本,每样本5个数据,单位是毫米。 步骤三、用R图检查一下范围。 首先生成一个管理图看看样本数据里凸轮轴的长度范围情况。我们希望样本数据的范围离中心值(估计的平均值)不要太远以免出现大的变动。 1. 选择 Stat Control Charts R。 2. 在 Single column 中输入 Length 。 3. 在 Subgroup size 中,输入 5。点击 OK 。
此R图所显示出并没有任何点超出规格。注意到中心线在2.72mm处,比所给的最大值±2要大得多。说明工序存在很大的变动。 上限 平均值 下限 每一点表示每个 班次的范围(最 高值减去最低值) 此R图所显示出并没有任何点超出规格。注意到中心线在2.72mm处,比所给的最大值±2要大得多。说明工序存在很大的变动。 步骤四、用Xbar图对特殊原因测试。 生成一个X-bar图看看凸轮轴长度是否存在超出规格的问题。另外,使用 Minitab的“Eight Common Runs”命令来找出变动的特殊原因。 1.选择 Stat Control Charts Xbar。 2 在 Single column 中输入 Length。 3.在 Subgroup Size 中,输入 5 。 4.点击 Tests 。
5.选中 Perform all eight tests。 6.点击 OK 两次。 控制上限 平均值 每一点表示每个 班次数据的平均值 控制下限 此 X-bar 图表明工序超出规格。尤其是有一点在Test1时出错,有两点在Test6 时出错。在会话窗口中,说明了这些检验表示的意思。
直方图的正态曲线是一种检查变量分布的有用方法。 7. 选取 Window Session。 TEST 1. One point more than 3.00 sigmas from center line. Test Failed at points: 8 TEST 6. 4 out of 5 points more than 1 sigma from center line (on one side of CL). Test Failed at points: 12 13 此工序有一点离中心线超出 3 sigma,4/5的点离中心线 1 sigma 之外(在中心线的一边)。 既然问题已经确实存在,下面应当找出原因和解决的办法。不幸的是,抽样计划并没有对问题精确的在哪里、什么时候发生作出具体的说明,因为每个班次只抽取了一个样本。好的计划应当是在问题的解决阶段每个班次多抽取几个样本。在特殊原因找到并解决之后再转换到监控阶段。因此,从这些数据可以知道能得到什么了。 步骤五、生成正态曲线的直方图。 直方图的正态曲线是一种检查变量分布的有用方法。 1.选择 Stat Basic Statistics Display Descriptive Statistics。 2.在 Variables 中,输入 Length。 3.点击 Graph,出现一个对话框。
4.选中 Histogram of data,with normal curve。 5.点击 OK 两次。 一般说来,我们希望像Length这样的变量服从正态分布。在这里,直方图近似于钟形。刚才所生成的直方图当然不是很好的钟形。实际上,从598,599,601高峰开始呈现出两个独立的、明显不同的分布。 检查记录清单发现凸轮轴供应商有两家,现在开始明白为什么会出现这样奇怪的直方图了。所以决定从两家供应商获得测定值并对每批数据单独运行X和R图。每家供应商的数据都保存在SUPP1 列和SUPP2列中。
步骤六、同时显示Xbar和R图 1.选择 Stat Control Charts Xbar-R 2 选择 Single column,输入 Supp1 。 3 在 subgroup size 中,输入 5 。点击 OK 。 尽管平均值是599.5,而不是600,Supplier1 的平均值和 Range 看上去都在管理范围之内。Range的平均值是 1.36mm 。
另外:对supplier2进行估算 对于supplier2和supplier1一样,使用同样的管理图。操作步骤同上,只不过在single column中,输入supp2,其余的不变。 Supplier2 的 X-bar 图反映出有问题。从这个图上,可以看出有两点超出管理上限。R 图没有显示出工序超出管理,然而,中心线是3.720,几乎是supplier1的3倍。从长远来看,应当等到supplier2生产的凸轮轴在管理范围之内时才采用supplier1。对于supplier2,应当与其合作,共同减小变动到可接受的水平。
步骤七、准备工序能力分析 只采用supplier1,使得变动大为减小。从组装线上下来的组件不良数明显降低,但是问题没有完全消除。决定进行能力分析,看看supplier1是否符合工程规格600±2mm。 进行工序能力分析之前,工序必须可控。管理图表明,由于措施得力,工序现在在管理范围之内。同时还希望凸轮轴的长度服从正态分布。现在由直方图检验其正态性。 现在看看supplier1的凸轮轴长度的分布。 1.选择 Stat Basic Statistics Display Descriptive Statistics。 2.在 Variables中,输入 Supp1,点击 OK。 此直方图比较令人满意,不象以前那样,再没有多个尖蜂。
步骤八、 进行工序能力分析。 1.选择 Stat Qulity Tools Capability Analysis(Normal) 2.选中 Single column 输入 Supp1 。 3.在 Subgroup size 中,输入 5 。 4.在 Lower spec 中,输入 598 。 5.在 Upper spec,输入 602 。 6.点击 Options 。 7.在 Target(adds Cpm to table),输入 600 。 8.点击 OK 。
从上面这个图形可以看出,工序的平均值与目标值不足,中心值落在目标值的左边。曲线的左边尾部落在了下限以外。因此,有些凸轮轴不符合最低规格598mm。 我们再看看文字性的统计说明。 Cpk 指数表明工序能否在公差范围内进行生产。如果Cpk指数为 1,意味着工序恰好符合规格;小于 1 说明超出规格。理想情况下,希望 Cpk 远大于 1,因为这个指数越大,表明工序越好。Supp1 的 Cpk指数只有0.9,表明需要减小变动,靠近目标值。
第九章 实验设计
假设你在一家化学工厂工作,任务是对生产一种化学产品的化学反应进行 背 景 假设你在一家化学工厂工作,任务是对生产一种化学产品的化学反应进行 研究。你想通过这个反应提高产量。根据过去的经验已经知道改变温度、气压和催化剂的种类可以改变反应产量。现在的问题是你的那些同事对于以上那些因素怎样影响反应的各有一套自己的见解。为了真正的改善,你决定做一个实验来决定这三个因子中哪一个是真正的影响者。 步骤一、生成一个新的project。 步骤二、生成一个实验设计 选择一个设计 假设你要设计一个实验测试三个因子:时间、温度和催化剂类型。 1. 选择 Stat DOE Create Factorial Design 只有两个按钮有效:Display Available Designs和Designs。 其他按钮是设置因子水平、特殊选项、控制会话窗口输出、点击Design按钮之后别的按钮便会生效。
2.点击 Display Available Designs。 使用此表可以帮助你选择一个合适的设计,主要基于以下几点: ● 感兴趣的因子数目。 ● 实验中能进行的实验次数。 ● 预期的实验解决方案。 这里我们对三个因子比较感兴趣,从上面这个表中知道有两种选择: ● Resolution III运行四次的 部分因子设计 ● 运行八次的完全因子设计 三因子两水平设计有 23 个可能的因子组合数。通过选择所有可能的组合设计(完全因子设计),可以没有混淆地得到结果,也就是说,所有效果或影响都彼此分离开。也可以通过少做几次实验或组合来得到有意义的结果。 最后决定采用三因子的完全因子设计(完全配置法)比部分因子设计(部分配置法)要合适。在你的化学工厂里,感兴趣的三个因子—时间、温度和催化剂种类—不需要很多的开销(经济的和时间耗费方面的)。而且此实验的进行也不是在生产高峰时候,不会影响生产。如果实验的进行开销很大的话,则需另择良方。
3.点击 OK。回到主窗口。 4.选择 2-level factorial(default generators ) 5.在 Number of factors 中,选择 3 。 6.点击 Designs。 7.在 Designs 框中,选择 Full factorial。 8 在 Number of replicates 中,选择 2 。 9.点击 OK 。 给因子命名并设置因子水平 在两水平因子设计中,将因子设置为两水平—一个低水平、一个高水平。每次实验都包含因子高低水平的组合。像催化剂这种类别型的数据,实际上没有高低水平,可以输入文本型的水平值。现将各因子水平设定如下: 因子 低水平 高水平 温度 20℃ 40℃ 气压 1大气压 4大气压 催化剂 A B 1.点击 Factors。出现如下对话框。 2.将上表对应添入对话框。 3.点击 OK 。
2.在 Base for random data generator 中,输入 9 。 随机化并保存设计 1.点击 Options。出现如下对话框。 2.在 Base for random data generator 中,输入 9 。 3.确保 Store design in worksheet 已经选中。点击 OK 。 4.所有的选择都会生效。这样便生成了一个设计。 步骤三、查看生成的数据 Runorder是实验时的实验顺序
步骤四、收集和输入数据 为了收集实验时的数据,需要创建数据集。 1.在数据窗口中,点击C8输入“yield”。要进行16次实验,需要记录每次的产量。假设得到了以下16个数据(单位:克)。 2.在“yield”列键入以下数据: 66 ,66,102,98,65,54,107,68,53,66,55,85,108,89,52,63 步骤五、筛选设计 筛选设计的目的是找出影响大的因子。既然已经生成了部分因子设计(部分配置法)并且收集了一些数据,那么可以对这些结果模式化、生成图形来估计效果。根据适合的算术模式和两种图形方法可以看出哪个因子对提高反应的产量影响最大。 1.选择 Stat DOE Analyze Factorial Design. 2.在 Responses中,输入 Yield 。 3.点击 Graphs 。
4.为了生成两个效果图以便知道哪个效果显著些,选中 Normal 和Pareto,使用缺省值α。 5.两次点击 OK。 Fractional Factorial Fit Estimated Effects and Coefficients for yield (coded units) Term Effect Coef StDev Coef T P Constant 74.81 2.561 29.21 0.000 TEMP 1.38 0.69 2.561 0.27 0.795 PRESSURE 14.12 7.06 2.561 2.76 0.025 CATALYST -30.37 -15.19 2.561 -5.93 0.000 TEMP*PRESSURE -0.13 -0.06 2.561 -0.02 0.981 TEMP*CATALYST -1.13 -0.56 2.561 -0.22 0.832 PRESSURE*CATALYST -13.37 -6.69 2.561 -2.61 0.031 TEMP*PRESSURE*CATALYST -0.13 -0.06 2.561 -0.02 0.981 Analysis of Variance for yield (coded units) Source DF Seq SS Adj SS Adj MS F P Main Effects 3 4496.19 4496.19 1498.73 14.28 0.001 2-Way Interactions 3 720.69 720.69 240.23 2.29 0.155 3-Way Interactions 1 0.06 0.06 0.06 0.00 0.981 Residual Error 8 839.50 839.50 104.94 Pure Error 8 839.50 839.50 104.94 Total 15 6056.44 完成了一个完全模式,它包含三个主效果、三个二次交互作用、一个三次交互作用。在 Estimated Effects and coefficients 表中,根据P列的值决定哪个效果显著。因为使用的α值是0.05,气压、催化剂、气压和催化剂的交互作用显著,也就是说,他们的P值小于0.05。
现在可以使用一般概率图和效果的Pareto来看哪个效果影响产量。在一般概率图中,那些与直线结合得不是很好的点的效果往往很显著。 效果图(effect plots) 现在可以使用一般概率图和效果的Pareto来看哪个效果影响产量。在一般概率图中,那些与直线结合得不是很好的点的效果往往很显著。 0是近似的平均值, 而1和-1是每边的 标准偏差 。 一般概率图将那些低于α水平的效果标志出来了。这里,气压、催化剂、气压和催化剂的交互作用显著,此时α=0.10。Pareto是另一种有用的工具,它可以帮你找出哪个效果重要。 任何超过这条线 的效果都是显著 的。 在 Pareto上,显示了效果的绝对值。Pareto和一般概率图一样,使用同样的α值来区分效果的显著性。从这里再一次看到,压力、催化剂、压力和催化剂的交互作用很显著。等下要找一个模式,没有温度条件、温度和压力、温度和催化剂,它们不显著。
步骤六、找一个精简模式 现在找一个新的模式,筛选出不重要的效果,找出此模式后,画出几个图形将效果可视化,然后评估此精简模式,作一个残差分析。 1.选择 Stat DOE Analyze Factorial Design。 2.点击 Terms。 3.设置模式 ● 从 Include terms in the model up through order中,选择 2。注意到此举将ABC移动到 Availble Terms 中。 ● 在 Selected terms 中,点击 A:Temp,然后点击按钮 < 将A:Temp移动到Availble Terms中。 ● 重复以上操作,将AB、AC移动到 Availble Terms 中。 4. 点击 OK 。
5. 点击Graphs,将Normal、Pareto不选中。 6. 选中 Histogram,Normal plot,Residuals versus fits和Residuals versus order.点击 OK 。 7. 在主对话框中点击 OK 。
步骤七、评估此精简模式 会话窗口的输出说明了此模式的一些优点。检查一下P列。评估此模式的一个好的标准是看P值。如果所有的P值都小于设定的α值,那么可以说此模式很好。在这里,α值为0.05。 Fractional Factorial Fit Estimated Effects and Coefficients for yield (coded units) Term Effect Coef StDev Coef T P Constant 74.81 2.107 35.51 0.000 PRESSURE 14.13 7.06 2.107 3.35 0.006 CATALYST -30.37 -15.19 2.107 -7.21 0.000 PRESSURE*CATALYST -13.38 -6.69 2.107 -3.17 0.008 Analysis of Variance for yield (coded units) Source DF Seq SS Adj SS Adj MS F P Main Effects 2 4488.62 4488.62 2244.31 31.60 0.000 2-Way Interactions 1 715.56 715.56 715.56 10.08 0.008 Residual Error 12 852.25 852.25 71.02 Pure Error 12 852.25 852.25 71.02 Total 15 6056.44 在这个模式中,所有的P值都小于0.05,表明此模式适合于进一步的实验检验。此模式相当简单而且几乎适合于此模式中所有的条件。残差错误只增加了一点点。可以通过残差图进一步检查此模式。残差是实际的产量减去预计的产量。 此直方图没有呈现出正态分布,信息不够,难于下结论,仅仅凭16个点,难于解释直方图。 在零值的两侧,分布很好,没有明显的增长或减少的趋势。
现在生成两个图形使效果可视化—主效果图和交互作用图。 1.选择 Stat DOE Factorial Plots。 此图相当好 此图呈现出一定规则的散布, 但同样仅仅凭16个点很难做出判断。 步骤八、结论 显示因子图 现在生成两个图形使效果可视化—主效果图和交互作用图。 1.选择 Stat DOE Factorial Plots。 2.选中 Main effects 然后点击 Setup。
3.在 Responses 中,输入 Yield 。 4.下一步选择条件: 在 Availble 中点击 B:Pressure,然后点击 > 按钮。将 B:Pressure 移动到 Selected 框中。 重复此操作,将 C:Catalyst 移动到 Selected 框中。点击 OK 。 5.选中 Interaction,点击 Setup 。 6.重复步骤3、4 7.在主因子图对话框中点击 OK 。 评估此图 首先看一下改变压力(pressure)条件或者使用催化剂A或B的基本效果图。只包含一个因子的效果图叫做主效果图。所有效果的数值意义都显示在会话窗口里。 此点表示气压设为高值时的平均值。 此虚线表示所有产量的平均值。 此点表示气压设为低值时的平均值。 此图显示了两个主效果——一个是气压、一个是催化剂。由此可以看出: 压力的主效果在高低设置时有所不同。 催化剂的主效果随类型的不同而有所不同。
为了计算主效果,将高设置或第二水平时的产量值减去低设置或第一水平时的产量值,得到如下结果: 还可以看出:催化剂的类型的主效果比气压的主效果要大:连接催化剂A和催化剂B的直线的斜率比连接高气压和低气压的直线斜率要小。尽管催化剂类型对产量的影响比气压的影响要大,但是看其交互作用同样重要。交互作用可以放大或消除主效果。 为了计算主效果,将高设置或第二水平时的产量值减去低设置或第一水平时的产量值,得到如下结果: 因子 效果大小 解释 气压 14.13 四大气压时产量比一大气压的产量高 催化剂 -30.37 使用催化剂A的产量比催化剂B的产量高 如果因子间没有什么交互作用的话, 此图对于解释改变因子怎样获得最大收益已经足够了。下一步我们看看交互作用。虽然会话窗口中已经说明了有一个显著的交互作用,我们再从图形上看看此交互作用到底是怎样的。 此点表示气压设为低值、采用催化剂A时的产量平均值 此处表示产量的单位。
交互作用图表明了改变一个因子会对另一个因子有什么样的影响。因为交互作用能够放大或者消除主效果,所以看交互作用是非常重要的。上图所显示的气压和催化剂的交互作用是两条斜率不同的直线。 在1大气压和4大气压下,催化剂A的产量比催化剂B的大。然而,可以看出,在4大气压下使用催化剂A和使用催化剂B的产量差别比在1大气压下使用催化剂A和使用催化剂B的产量差别要大得多。 为了得到最大产量,结果已经表明应当在4大气压下采用催化剂A。