多元统计分析及R语言建模 第12章 多维标度法MDS及R使用 - 2-
多元统计分析及R语言建模 第12章 多维标度法MDS及R使用 本章内容 plot(1:100)
多元统计分析及R语言建模 内容与要求 第12章 多维标度法MDS及R使用 内容: 包括多维标度法的基本理论、方法、古典解和非度量方法,计算程序中有关多维标度法的算法基础;多维标度法的基本步骤以及实证分析。 内容与要求 要求: 了解多维标度的基本思想和实际意义,以及它的数学模型和二维空间上的几何意义;掌握多维标度法的基本性质;能够利用软件自己编程解决实际问题。
12 多维标度法MDS及R使用 说明与举例 12.1 MDS的基本理论和方法 说明: 多维标度法是一种利用客体间的相似性数据去揭示它们之间的空间关系的统计分析方法。 说明与举例 例12-1: 右表列出了美国10个城市间公路的距离。 如果用D=(dij)表中的矩阵,它名义上是距离阵,但并不一定是n个点的距离,即不是我们通常所理解的距离阵。
12 多维标度法MDS及R使用 12.1 MDS的基本理论和方法 定义12.1 一个n×n矩阵 D=(dij),若满足 D’=D,dii=0,dij ≥0,(i,j=1,2, …,n ; i ≠ j ) ,则称D为距离阵。 对于距离阵D=(dij),多维标度法的目的是要寻找p和Rp中的n个点x1,…,xn,用 表示xi与xj的欧氏距离, , 使得 与D在某种意义下相近。 在实际运用中,常取p=1,2,3。将寻找到的n个点x1, x2,...,xn,写成矩阵形式: 则称X为D的一个解(或叫多维标度解)。
12 多维标度法MDS及R使用 12.2 MDS的古典解 欧式型距离阵及其判定定理: 定义12.2 一个距离阵D=(dij)称为欧氏型的,若存在某个正整数p及p维空间Rp中的n个点x1,…,xn,使得 令 定理12.1 一个n×n的距离阵D是欧氏型的充要条件是B≥0。
12 多维标度法MDS及R使用 12.2 MDS的古典解 多维标度法的古典解: (1)由距离阵D=(dij)构造 (2) 令B=(bij),使 (3)求B的特征根λ1≥λ2≥…≥λn,若无负特征根,表明B≥0,从而D是欧氏型 的;若有负特征根,D一定不是欧氏型的。令 这两个量相当于主成分分析中的累积贡献率。 (4)令 ,则 的行向量x1,…,xn即为欲求的古典解。
12 多维标度法MDS及R使用 12.2 MDS的古典解 例12-2:设有距离阵如下: 求得λ1=λ2=3,λ3=…=λ7=0,取 , 求得λ1=λ2=3,λ3=…=λ7=0,取 , 于是七个点的坐标分别为: 因为B≥0,所以原矩阵D是欧氏型的,故这个古典解是D的古典解。
12 多维标度法MDS及R使用 12.2 MDS的古典解 例12-3:考虑例12.1中美国10个城市的距离阵,相应B的特征根如下: λ1= 958214,λ2=168682,λ3=8157,λ4=1433,λ5= 509 λ6=25,λ7=0,λ8= -898,λ9=-5468,λ10= -35479 最后三个特征根是负的,表明D不是欧氏型的。当k=2时, a1,2=99.5%, a2,2=100.0% 故取k=2就可以了,前两个主成分相应的特征向量为: x(1)=(-719,-382,482,-161,1204,-1134,-1072,1421,1342,-980)’ x(2)=(143,-341,-25,573,390,582,-519,113,-580,-335)’ 于是可将x(1),x(2)相应的10个坐标点画在图上,就可以看到由古典解确定的10个城市的位置。
12 多维标度法MDS及R使用 12.2 MDS的古典解 计算过程: #在mvstats4.xls:d12.1中选取A1:K11,拷贝 D=read.table("clipboard",header=T) library(MASS) D=as.matrix(D) fit=isoMDS(D,k=2) fit
12 多维标度法MDS及R使用 12.2 MDS的古典解 计算过程: x=fit$points[,1] y=fit$points[,2] plot(x,y,type="n") text(x,y,labels=row.names(D))
V(k)=(v(1), v(2), …, v(k))=(v1, v2, …, vn) 12 多维标度法MDS及R使用 12.2 MDS的古典解 古典解的优良性: 设X是一个n×p矩阵,令A=XHX,In= 1n1n,A的特征根记作λ1≥…≥λp,为简单起见,设λ1,λ2,…,λp>0,可见,λ1,λ2,…,λp也为B=HXXH的非零特征根。由于HX的行是X行的中心化,因此B=(bij)中的元素可表示为:bij=(xi-xj)(xi-xj) 记v(i)为B对应于λi的特征向量,且v(i) v(i)=λi,i=1,2,…,p,此时令 V(k)=(v(1), v(2), …, v(k))=(v1, v2, …, vn) 则称(v1, v2, …, vn)为X的k维主坐标。 定理12.2 X的k维主坐标是将X中心化后n个样本的前k个主成分的值。
12 多维标度法MDS及R使用 12.3 非度量方法 Shepard-Kruskal 算法:
12 多维标度法MDS及R使用 12.3 非度量方法 Shepard-Kruskal 算法:
12 多维标度法MDS及R使用 12.4 多维标度法的计算过程 计算步骤 计算样品间的距离矩阵 分析样品间的距离矩阵 1 2 选择样品和变量 确定研究的目的 1 选择样品和变量 2 计算步骤 计算样品间的距离矩阵 3 分析样品间的距离矩阵 4 5 计算距离阵的古典解 检验模型的拟合效果 6
12 多维标度法MDS及R使用 12.4 多维标度法的计算过程 例12-4: 广东省各地区农村发展状况评价分析 指标:
12 多维标度法MDS及R使用 12.4 多维标度法的计算过程 计算过程: #在mvstats.xls:d12.2中选取A1:G22,拷贝 X=read.table("clipboard",header=T) d=dist(X) fit=isoMDS(d,k=2) fit
12 多维标度法MDS及R使用 12.4 多维标度法的计算过程 计算过程: x=fit$points[,1] y=fit$points[,2] plot(x,y);abline(v=0,h=0,lty=3) text(x,y,labels=row.names(X))
12 多维标度法MDS及R使用 12.4 多维标度法的计算过程 结果分析: 在综合排名中,广州市处于排总排名的第一名,佛山市排在第二名,而深圳市则明显大大落后。 茂名市、中山、珠海和江门市则在农、林、牧业产值中表现很优越。