第三讲 矩阵特征值计算 —— 应用:Google 网页排名.

Slides:



Advertisements
Similar presentations
人類起源 一 天上來的 一 天上來的 : 1 中國布朗族 : 人是從天上掉下來的。洪荒時 代,天下無人,一天刮起狂風暴雨,天落 下五人,為各族的祖先。 2 中國崩龍族 : 天上下來八個神造世界,他 們聞到大地的香味而吃了芳香的泥土,在 地上住了九千年,其中四個變成女人,四 個變成男人,成了人類最早的父母。
Advertisements

1 4.5 高斯求积公式 一般理论 求积公式 含有 个待定参数 当 为等距节点时得到的插值求积公式其代数精度至少 为 次. 如果适当选取 有可能使求积公式 具有 次代数精度,这类求积公式称为高斯 (Gauss) 求积公式.
1 主題三 網路常見衝突事件 的防範 3-1 認識網路兩性交往常見的衝突事件 3-2 瞭解處理兩性網路交往衝突之注意事項 3-3 認識處理兩性網路交往常見的衝突事件的 有效方法 有效方法.
什么是遗传病? 它与非遗传病 如何区别 遗传病:是由引起 遗传病:是由遗传物质改变引起 的或者是由所控制的人 类疾病. 的或者是由致病基因所控制的人 类疾病.基因 遗传病的概念.
社会语言文字应用调查 王森 数学学院(交流). 汉语既然是一门博大精深的语言,其复杂 程度可想而知,因此使用难度也比想象中的 高很多。然而作为泱泱大国的主要语言,它 就要求全国人民必须规范使用,否则中华文 化将不成体统。国家对规范汉语可谓十分重 视,不惜将字音字形作为高考内容。像我一.
财务管理 利 润 分 配 利 润 分 配 嘉善中专 杨晓燕. 二、利润分配的项目及顺序 第三节 利润分配 一、利润分配的原则 财务管理 >> 第六章 >> 第三节 三、利润分配政策及影响因素.
公務員申領小額款項專案法紀宣導 法務部廉政署 編製
强力打造湖北农业信息网 全面推进湖北农村信息化
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
                                                 伊朗 的今生 与前世 (2)
电冰箱 初中劳技 周健.
泛黄的春联还残留在墙上 依稀可见几个字岁岁平安 在我没回去过的老家米缸 爷爷用楷书写一个满 黄金葛爬满了雕花的门窗 夕阳斜斜映在斑驳的砖墙 铺着榉木板的屋内还弥漫 姥姥当年酿的豆瓣酱 我对着黑白照片开始想像 爸和妈当年的模样 说着一口吴侬软语的姑娘缓缓走过外滩 消失的旧时光一九四三 在回忆的路上时间变好慢.
客家文化的內涵與傳播 潘朝陽 臺灣師大國際與僑教學院院長 臺灣師大東亞系、地理系教授 臺灣師大全球客家文化研究中心主任
指導教師:石燕鳳 組長:章懷升 組員:張功藝 林昀澍 陳品全
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
第一节 两者之间的差异分析 第二节 总体内部的差异分析 第三节 计算器的使用
─視覺藝術的元素.
未成年少女墮胎的法律問題.
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
第四章 從分裂到統一 第一節 漢唐之際的大變動
小寶寶家庭保健護理小常識 講師:郭洽利老師
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
迪士尼動畫 玩具總動員1.
国王赏麦的故事.
課程實錄.
股 指 期 货 的 应 用 1.
期权价格解析.
第五章 病因病机.
動物的繁殖行為.
5,2 新时代的劳动者.
105年臺北市 優先免試入學 高中職免試入學 五專免試入學 報名方式宣導
湖北省,简称“鄂”,为中华人民共和国省级行政区。湖北在中国中部、长江中游、洞庭湖以北,介于北纬29°05′至33°20′,东经108°21′至116°07′;北接河南省,东连安徽省,东南和南邻江西、湖南两省,西靠重庆市,西北与陕西省为邻。东西长约740公里,南北宽约470公里,面积18.59万平方公里,占全国总面积的1.95%,居全国第13位。省会是中部地区唯一的副省级城市--武汉市。
十 代 词 制作 阚景忠 讲授 阚景忠.
台灣廢物物處理機構 邱騰煥 8 號.
大肚宮廟巡禮.
行動報告人:丁俊源 行動參與人和單位: 我們全家人 社區鄰居、管委會 新北市環保局
熊貓 設計者:鄧澤怡 班別:6B2 學校:華德學校.
「但圣灵降临在你们身上,你们就必得着能力,
劳模的风采.
拟动力试验 伪动力试验,计算机加载器联机试验 地震发生和传播的随机性 周期性加载的加载历程是假定的,与实际地震的非周期反应有很大差别
新时代的劳动者 杜蒙绮.
單車失竊記心得.
新約概論 台中生命之道靈糧堂 2007年3月4日.
跨校選課 說明會 主辦人:[國文系學會學權股] 葉軒如、李美玟.
马克思主义基本原理概论 第三章 人类社会及其发展规律.
友信不銹鋼工程有限公司 台北市康定路4號 工廠:台北縣三重市竹圍仔街22-3號
機率與統計 Introduction   講師:黃弘州.
高雄醫學大學個人申請不分系招生(薪火A~D組) 助學措施說明
北極熊 華德學校 田根繩.
稅知多少.
亞伯拉罕 摩西 猶太教徒 割禮 + 律法 成為神子民 的記號 神子民的 行為規範 結婚戒指 婚姻守則.
保羅在腓立比的宣教 使徒行傳16:9-34.
瀕臨絕種—北極熊 設計者:吳柏曦 班別:5B1 學校:華德學校.
稅知多少 國家的重要基礎.
新约拱门 1 提前 提后 多 门 教牧书信 帖后 帖前 西 腓 弗 加 林后 林前 罗 启 犹 约叁 约贰 约壹 彼后 彼前 雅 来 希伯来
105學年第1學期期初校務會議 圖書館工作報告 報告人: 林佩佳主任.
埃及永生之旅 報告者:陳菱霙.
新約拱門 1 提前 提後 多 門 教牧書信 帖後 帖前 西 腓 弗 加 林後 林前 羅 啟 猶 約叁 約貳 約壹 彼後 彼前 雅 來 希伯來
岗位聘任管理系统使用说明 浙江师范大学人事处 咨询电话: 、
春雨 (晚雨) 秋雨 (早雨) 雨季 旱季 雨季 陽曆 逾 越 節 五 旬 節 住 棚
第二节 海水的运动.
「但圣灵降临在你们身上,你们就必得着能力,
第三讲 矩阵特征值计算 —— 幂法与反幂法.
全陽圓格局位置最好的A6-2樓 面中庭花園3房2廳2衛三面採光 捷運藍線江子翠捷運站1號出口Google距離210公尺
數學遊戲二 大象轉彎.
「但聖靈降臨在你們身上,你們就必得著能力,
網路安全技術期末報告- Google伺服器
第2章 线性代数方程组.
保羅的臨別贈言 使徒行傳20:16 – 21:14.
Presentation transcript:

第三讲 矩阵特征值计算 —— 应用:Google 网页排名

PageRank 网站排名是网络搜索引擎的核心 PageRank 是著名网络搜索引擎 Google 用于评测一个网页 “重要性” 或 “影响力” 的一种方法。通过该方法,Google 将各个网站进行排名。用户进行相关搜索时,Google 会将符合条件的网站按排名顺序输出。 PageRank 得分越大表示网页越重要。 PageRank 算法中使用的数学知识包括:正矩阵性质、特征值和特征向量、幂迭代算法、Gauss-Seidel迭代算法等 本讲主要介绍 PageRank 算法的基本思想与模型,以及如何使用该算法对网站进行排名

有 向 图

有向图介绍 有向图的定义、相关术语和部分性质 有向图是指由有限个元素的非空集合和它的不同元素构成的有序数对组成的结构。 图的基本元素:顶点(节点)和边(线、弧、枝) 例:右图为一个有向图,记为 D,其顶点组成的集合记为 V(D) = { u, v, w} 边组成的集合记为 A(D) = {(u,w), (w,u), (u,v)} 注:(u,w) 和 (w,u) 表示不同的边。

有向图相关术语 有向图 D 的顶点集的基数称为 D 的阶,记作 p(D) 边组成的集合的基数称为 D 的大小,记作 q(D) 顶点 v 的出度 (out-degree) 是指从 v 邻接的顶点的个数,或 以 v 为起点的边的条数,记作 od(v) 顶点 v 的入度(in-degree)是指 D 中邻接到 v 的顶点的个数, 或以 v 为终点的边的条数,记作 id(v)

有向图举例 例:右下图为一个有向图,记为 D,则 D 的阶: p(D)=3 D 的大小: q(D)=3 顶点 u 的出度: od(u)=2 id(u)=1 顶点 v 的出度: od(v)=0 顶点 v 的入度: id(v)=1

有向图举例 例:左图中 p(D)=6,q(D)=9 序号 顶点 入度 出度 1 alpha 2 beta 3 gamma 4 delta 5 rho 6 sigma

邻接矩阵 为研究需要,我们定义邻接矩阵 例:对于右边的有向图,其邻接矩阵为

邻接矩阵的性质 性质一:定义行和 和列和 ,则第 i 行的行和 ri 就是第 i 个顶点的入度,第 j 列的列和 nj 就是第 j 个顶点的出度。 行和  入度,列和  出度 性质二: =边的个数

PageRank 数学模型

PageRank 的决定因素 Google 的 PageRank 是基于这样一个理论: 若 B 网页上有连接到 A 网站的链接 ( 称 B 为 A 的导入链接 ),说明 B 认为 A 有链接价值,是一个“重要”的网站,此时 A网站可从 B网站分得一定的级别 ( 重要性 )。 同时 A 的级别将平均分配给 A网站上的所有导出链接。 导入链接:链接到你网站的站点,即“外部链接”; 导出链接:网站上指向另外一个站点的链接。 在 PageRank 模型中,一个网站的级别(重要性)大致由下面两个因素决定:导入链接的数量和导入链接的级别(重要性)。

哪个网页最重要 例:这 6 个网站中哪个最重要? 不太合理 重要性的决定因素: 如果我们将下面的有向图中的每个顶点看成一个网站,并把每条边看成是网站间的 “超链接”,则此有向图就代表一个小型的网络,其中有 6 个网站和 9 个超链接。 例:这 6 个网站中哪个最重要? 看谁的导入链接多? 不太合理 重要性的决定因素: 导入链接的数量 导入链接的重要性

简化的 PageRank 算法 设 u 是某个网页,其级别(重要性)为 r(u),记 Fu 为 u 的导出链接的集合, Bu 为 u 的导入链接的集合, nu = |Fu | 即是 u 的导出链接总数。 设 v 是 u 的一个导入链接,根据 PageRank 理论,u 从 v 处分得的级别(重要性)为 r(v)/nv 。将 u 从所有导入链接处分得的重要性相加,即为网页 u 的最终级别

简化的PageRank模型 G 中第 j 列的列和 矩阵形式 其中 设共有 m 个网页,分别编号为 1、2、3、...、m,它们的级别(重要性)分别记为 r1、r2、r3、...、rm,G 表示由这些网页组成的有向图的邻接矩阵。根据有向图理论: G 中第 j 列的列和 矩阵形式 其中

简化PageRank的问题 易知 r 是 Gm 的对应于特征值为 1 的特征向量 因此,我们需要对简化的 PageRank 进行改进! 如果 ,则 r1 = r2 ,此时就无法进行排名 因此,我们需要对简化的 PageRank 进行改进!

改进的 PageRank 基本思想:首先给每个网页设置一个基本级别 其中: 设 (u) 是网页 u 的所获得的基本级别,则 x(u) 表示网页 u 的最终级别 p 是一个加权系数,通常取 0.85 左右 (u)= (1 – p )/m  

改进的 PageRank 与前面的讨论相类似,将所有网页进行编号: 1、2、... 、m 于是可以把右式改写为: 矩阵 形式

改进的 PageRank 其中:

改进的 PageRank 规定: 记 x 是 A 的对应于特征 值 =1 的特征向量。

改进的 PageRank 矩阵 A 的两个重要性质:  = (1 – p )/m (1) A>0,即所有元素都是正数

改进的 PageRank 若矩阵 G 中存在 0 列,即存在 j 使得对所有的 i 有 gij = 0,则将导致 nj = 0 , 此时规定:

改进的 PageRank x 满足: 问:上述方程组的解是否存在? 答:上述方程组存在唯一的解!(且均为正数) 理由:Perron-Frobnius 定理(证明略)

A 的谱半径 问: = 1 是 A 的特征值吗? A 的各列的列和等于 1  = 1 是 A 的特征值

网页排名举例 例:用改进的 PageRank 算法计算下面的小型网络中各网页的排名,其中取 p=0.85。 序号 顶点 入度 出度 1 alpha 2 beta 3 gamma 4 delta 5 rho 6 sigma

网页排名举例 clear; % Eig11.m p = 0.85; % 此处 p 也可以取其它数值 0 1 1 0 0 0; 0 0 1 0 0 0; 0 0 1 0 1 0]; n = size(G,1); sn = sum(G); % 提取每列的列和 D = diag(1./sn); % 生成对角矩阵 delta = (1-p)/n; A = p*G*D + delta; [v,d] = eig(A); % 计算 A 的特征值与特征向量 r = v(:,idx); % 最大特征值所对应的特征向量 r = r./sum(r); % 归一化 [x,index] = sort(r,'descend'); % 排序 % 输出结果

数值算法

幂法 x = A x ,x 满足: 幂法 当矩阵 A 的阶数很大时,无法直接计算其特征值和特征向量,此时需要使用迭代算法。 输入矩阵 A 和初始向量 v0 > 0,以及精度 tol 计算: ; 如果 |vk+1 - vk |< tol,则令 x = vk+1 并停机, 否则转第二步。

幂法举例 例:采用幂迭代法计算下面各网页的排名,其中 p=0.85。

幂法举例 clear; % Eig12.m tol = 1e-4; p = 0.85; 0 1 1 0 0 0; 0 0 1 0 0 0; 0 0 1 0 1 0 ]; n = size(G,1); sn = sum(G,1); D = diag(1./sn); delta = (1-p)/n; A = p*G*D + delta; x = ones(n,1)/n; % 迭代初始向量 z = zeros(n,1); k = 0; % 记录迭步数 while max(abs(x-z)) > tol % 幂法 z = x; x = A*x; k = k+1; end [x1,index]=sort(x,'descend');

一个问题 此时规定: 在前面给出的程序中,如果矩阵 G 中存在某一列的列和为零,怎么办? 一个修改后的 Matlab 程序(Eig13.m)