Download presentation
Presentation is loading. Please wait.
1
4.5 社会网络分析 在社会科学中,以对社会行动者之间的互动研究为基础的结构性方法被称作社会网络 分析(弗里曼,2008)
这些行动者可能是个体的人,也可能是群体、组织或者国家等。 社会网络分析关注行动者之间的关系,认为这些关系的模式会影响它们的行动。 因此,揭示不同类别的关系模式,并确定这些模式在何种条件下会出现以及会导致什 么样的后果就成为社会网络分析的核心目标之一。 2019/2/4
2
当代科学界重视结构性与系统性这一大背景的产物
4.6.1 社会网络分析的发展 当代科学界重视结构性与系统性这一大背景的产物 社会网络分析把社会学家、人类学家、数学家、经济学家、政治学家、心理学家、传 播学家、统计学家、生态学家、流行病学家、计算机科学家、商学院里的组织行为学 和市场学学者,以及物理学家集合在一起。 虽然这些人背景各异,但共同拥有一个体现在网络分析方法中的结构性视角。 多个学科几代研究者不断积累的结果 关于社会网络分析的起源,有的研究者认为始于20世纪30年代早期莫雷诺(Jacob Moreno)的社会计量学。也有人认为,社会网络分析到20世纪70年代怀特( Harrison White)在哈佛大学招收研究生时才开始。事实上,社会网络分析的相关理 论从19世纪末20世纪初的齐美尔(Georg Simmel)就已发端,甚至能够追溯至更早 的孔德(Auguste Comte)。 2019/2/4
3
20世纪30年代,莫雷诺的社会关系计量学和沃纳(William Warner)与梅奥(Geor ge Mayo)的人际关系学派
1934年,莫雷诺出版了《谁将生存?》一书,标志着社会计量学的兴起。 莫雷诺及其助手统计了研究对象期望和哪位组织成员共同生活和娱乐,并据此 得出一套关系型数据,用以分析各成员在群体中的位置和群体中的小集团。 大约在同时期,哈佛大学的沃纳和梅奥在研究组织行为的过程中,提出了人际关 系学派(The Relational School)。 他们收集了工人之间详细的社会网络数据,比如谁和谁一起玩、谁和谁吵了架 等,并用图形的方式展示了工人之间的种种关系。 2019/2/4
4
20世纪50年代,哥伦比亚学派的传播研究 拉扎斯菲尔德(Paul Lazarsfeld)、科尔曼(James Coleman)、卡兹(Elihu Katz)和门泽尔(Herbert Menzel)等人采用社会网络的方法来研究社会传播( Social Diffusion),给社会网络研究注入了新的活力。1955年,哥伦比亚学派的 代表性作品之一《人际影响》问世,研究者们从生命周期、合群性和社会经济地位 三个方面探讨了意见领袖的特征。 2019/2/4
5
1967年哈佛大学心理学教授斯坦利·米尔格拉姆(Stanley Milgram)通过连锁信实 验验证了六度分离理论(Six Degrees of Separation)
六度分离理论(又称小世界现象)的出现使得人们对于人际关系网络的威力有了新 的认识。然而,在这个理论中,没有对人和人之间的关系进行强弱的区分。直到19 74年,斯坦福大学社会系的马克·格拉诺维特(Mark Granovetter)提出了弱连接 理论,才对这一问题进行了补充。 格兰诺维特指出:每个人与接触最频繁的亲人、同学、朋友、同事等之间是一 种“强连接”(Strong Ties),然而这种稳定的连接在传播范围上非常有限 。反而,与一个人的工作和事业关系最密切的社会关系并不是“强连接”,而 常常是“弱连接”(Weak Ties),例如一个无意间认识的人或者打开收音机 偶然听到的一个人等。“弱连接”虽然不如“强连接”那样稳定,但却有着极 快的、低成本和高效能的传播效率。 2019/2/4
6
20世纪70年代,怀特(Harrison White)在哈佛大学的研究
怀特将矩阵理论应用与社会网络研究,写出了一些关于网络分组(block modeling)和机会链(chains of opportunny)方面的重要论文。 在这个过程中,培养了一大批对当代社会网络分析具有重要影响的学生,比如皮尔 曼(Peter Bearman)、波纳西(Peter Bonacich)、威尔曼(Barry Wellman) 和温士浦(Christopher Winship)等人。 70年代末,在威尔曼等人的倡导下,社会网络研究国际协会(International Network for Social Network Analysis)成立,加上《社会网络》杂志的创 办,标志着社会网络研究开始了系统化和国际化的进程。 2019/2/4
7
20世纪90年代以来,社会网络研究实现了分析方法的突破和多学科的深入参与
指数随机网络模型(Exponential Random Graph Models,ERGM)的建立和发 展极大推动了社会网络的统计建模。 Snijders等创建的个体导向随机模型(Stochastic Actor-oriented Models)进一 步把随机网络模型推广到分析动态社会网络。 研究主题从单纯的对社会网络的研究,扩展到对政治网络、经济网络、文学作品中 的对话网、蛋白质互动网、疾病传染网、计算机网络等的研究。 参与的学科从社会学、人类学和统计学扩张到经济学、政治学、传播学、文学、物 理学、生物学和医学等学科。 2019/2/4
8
在这个过程中,除了以社会学为核心的研究继续得到巩固,还形成了以物理学和计 算机科学为核心的不同流派。
在这个过程中,除了以社会学为核心的研究继续得到巩固,还形成了以物理学和计 算机科学为核心的不同流派。 1998年,康奈尔大学的邓肯·瓦特(Duncan Watts)和斯蒂文·斯特罗加茨( Steven Strogatz)在《Nature》杂志上发表了一篇名为“小世界网络的集体 动力学”(Collective dynamics of the 'Small World' networks)的论文 。指出之所以会出现小世界现象,是由于某一类复杂网络的特性。他们注意到 复杂网络可以按两个独立的结构特性分类,即集聚系数和节点间的平均路径长 度。1999年,Barabási和Albert在《Science》杂志上发表的《随机网络中标 度的涌现》一文中证明复杂网络的连接度普遍符合幂律分布。随后,很多研究 者,尤其是物理学家开始关注各种复杂网络。 于此同时,以康奈尔大学的Jon M. Kleinberg教授为代表的计算机科学研究者 则主要针对社交网络数据的特点,运用与修改各种数据挖掘算法。提出了针对 社交网络数据的基本算法,如著名的HITS和PAGERANK算法。 2019/2/4
9
4.6.2 社会网络分析的主要测量指标 社会网络分析按照研究群体的不同可分为两种基本的类型:自我中心网络( Ego- centered Networks)分析和整体网络 (Whole Networks)分析。 自我中心网络是从个体的角度来界定社会网络,以特定行动者为研究中心,主要考虑与该 行动者相关的联系,以此来研究个体行为如何受到其人际网络关系的影响。 而整体网络关注的焦点则是网络整体中角色关系的综合结构或群体中不同角色的关系结构 。这两种类型的分析因其侧重点不同,主要使用的测量指标也不尽相同,但并非毫无联系。 社会网络中的测量指标主要包括三种类型:对连带的测量、对个体的测量和对网络整 体的测量。这些指标都是静态量,可以通过计算它们在不同时间的值,反映网络的变 化趋势。 2019/2/4
10
社会网络中连带的测量 网络指标 定义 例子 间接连接 两个行动者之间的连接路径需要通过一个或者多个其他行动者
A与B连接,B与C连接;所以A与C通过B间接连接 频率 连接发生的次数或者频率 A与B每星期谈话10次 持续时间(稳定性) 连接在时间上存在的持续性 A与B做朋友已经有5年了 多样性 两个行动者被多重关系连接的程度 A与B是朋友,他们向彼此寻求建议,并且一起工作 强度 描述时间、感情强度、亲密程度或互惠程度(频率和多样性也常常被用于度量连接的强度) A与B是亲密的朋友,或者长时间在一起 方向 从一方指向另一方的方向量 从A到B的工作流,但不是从B到A的 对称性(互惠性) 关系的双向程度 A向B咨询建议,B也向A咨询建议 2019/2/4
11
社会网络中个体的测量 网络指标 定义 度 与其他行动者的直接连接数 入度 从其他行动者连接到该行动者的直接连接数(进入的连接) 出度
从该行动者连接到其他行动者的直接连接数(出去的连接) 范围(多样性) 连接到其它不同行动者的数量(其他行动者被定义为不同是因为他们本身没有互相连接,或代表不同的群体或状态) 近邻度 一个行动者靠近或可以轻易地到达网络中所有其他成员的程度。通常通过该行动者到所有其他行动者的平均路径长度(直接或间接连接)来测量。一个直接连接被看做1,间接连接根据比例得到较小的权重 介度 一个行动者充当中介(落到其他任意两个处在最短连接路径上的一对行动者中间)的程度,通常通过该行动者在网络中所有可能的连接对之间充当中介的次数取平均值 中心度 一个行动者在网络中处于中心的程度。不同的测量(包括度、近邻度和介度)曾经被用作中心度的指标。某些中心度的测量借助与该行动者连接的其他行动者的中心度来测量 2019/2/4
12
建立在非对称关系基础上。有威信的行动者是关键的目标,而不是源头。类似于中心度的测量,通过解释关系的方向来计算。
声望 建立在非对称关系基础上。有威信的行动者是关键的目标,而不是源头。类似于中心度的测量,通过解释关系的方向来计算。 结构洞 结构洞是信息流动时候的“鸿沟”,信息可以在两个连接到同一自我中心节点(ego)但是彼此并不相连的节点间传播,那么这个自我中心节点处在跨越结构洞的位置,结构洞看起来就是存在网络中两个没有紧密联系的节点集合之间的“空地” 明星 处于网络中的成员 联系人 与两个或更多个彼此没有连接的群体具有连接但又不属于这个群体的行动者 桥 同时属于两个或多个群体的成员 把关人 把网络的一部分和另一部分间作为中介或控制流(两部分间唯一的连接)的行动者 孤立点 没有连接或相对来说几乎没有连接的行动者 2019/2/4
13
社会网络中网络整体的测量 网络指标 定义 规模 网络中行动者的数量 包含度
一个网络中的行动者总数减去孤立的行动者数(没有连接任何其它行动者的行动者数量)。也用被连接行动者数与总行动者数的比率来进行测量网络节点和连接的最大连通子集 组件 组件中的所有节点互相连接(直接连接或间接连接),并且没有节点和组件外的节点相连 连通度 网络中的行动者与另一个行动者直接或间接相连的程度。有时用网络中任意两个行动者间的最大(或平均)的路径长度来进行测量 连通率 相互可达的行动者对数与总的行动者对数的比率 密度 网络中的实际连接数与可能连接数的比率 中心势 计算网络中大多数中心度最大的行动者和其他行动者间的中心度值的差别,从而得到实际差别总数和最大差别总数的比率 核心外围性 达到网络中核心成员彼此连接,外围成员仅仅连接到核心成员而不彼此连接的结构的程度 对称性 网络中对称连接数与非对称连接数(或与总连接数)的比率 小世界性 网络结构中存在一些块,并且块中行动者之间的距离很短 传递性 三个成员(A,B,C)是可传递的:如果A与B相连,并且B与C相连,那么C就与A相连。传递性是可传递三元组的数目除以潜在的可传递三元组的数目(长度为2的路径的数目) 2019/2/4
14
4.6.3 社会网络分析的主要步骤 以政府间国际组织为例来具体说明如何应用社会网络分析方法进行相关研究
假设存在五个国家(a、b、c、d、e),它们分别是七个政府间国际组织的成员 2019/2/4
15
区分“全局网”和“个体中心网” 区分各种关系 收集网络关系数据
在这个问题中,全局网的研究对象可能是整个国际社会乃至国际体系,而个体中心网 则仅以某一具体网络为中心。因此这七个政府间国际组织组成的是“个体中心网”。 区分各种关系 即使是同一网络也可能存在不同的关系。在这个政府间组织网络中可能存在着贸易关 系、同盟关系甚至敌对关系。哈夫纳伯顿等人重点关注这些国家在网络组织中的位置 所产生的权力关系。 收集网络关系数据 这些数据是多元的,既有经济的,也有政治的以及社会的。在哈夫纳伯顿的研究中, 使用了国家间军事争端数据(Militarized Interstate Disputes, MIDs)、国家组织会 员数据(State System Membership)等数据库以搜集关系数据。 2019/2/4
16
处理关系数据 可以用二分法(以“1”或“0”表示)或者加权值的方式。 政府间国际组织成员的隶属矩阵D。
其中,以“1”表示该国家属于某个组织,“0”则相反。 社会计量矩阵表示成员网络。 a和b之间的值为4,表示a与b共同属于4个组织。 也可以用图直观的表示。 其中,v值表示国家间在这个网络中共属的政府间组织数量。 2019/2/4
17
选择是否包含行为体的属性信息 对得到的网络数据进行分析
如国家的经济社会情况,国家的政治(政体)、军事信息等。由于在结构化的研究取 向中,社会网络分析重点关注的是行为体之间的关系数据,这个步骤是可选择的。 对得到的网络数据进行分析 由于社会网络分析往往涉及庞大的关系数据,因此计算和分析过程几乎完全依靠社会 网络分析软件来进行。社会网络分析提供了一系列描述网络属性的指标,例如中心度 、密度、中间性、接近性、派系、聚类等。可以用社群图或者矩阵的形式表示。 基于此,可以分析网络中各个点在网络中的中心度或重要性以及网络分化的子群等特 征。并进一步研究各种群体间的直接关系,进而研究其宏观结构。 2019/2/4
18
4.6.4 社会网络分析的工具 对于社会网络分析中的数据,除了使用SPSS、SAS、R等进行处理以外,还可以使用专 门的网络分析软件。它们能够帮助研究者进行数据录入、统计、建模等一系列工作, 还提供多种静态布局和动态交互的可视化功能。 斯科特和瓦瑟尔曼曾经在《Models and Methods in Social Network Analysis》一书中介 绍了23种社会网络分析软件,包括其适用对象、数据格式、功能和所提供的支持等方面的具 体情况。在众多软件中,较为常用的网络分析软件主要包括UCINET、Pajek、NetworkX和 NetMiner等。 功能 Pajek UCINET NetworkX NetMiner3 特征参数 √ 统计模型 ╳ 社团发现 动态网络 可视化 2019/2/4
19
4.6.5 社会网络分析的典型案例 案例1:对SARS病毒传播扩散趋势和控制病毒传播手段可行性的测算(林国基,2003)
人们发现具有小世界效应的动态系统模型能加快信号传播的速度,提高计算能力和计 算同步性。谣言、传染病在小世界网络中的传播也比在规则网络中更为容易。 流行病传播模型是时空动力学模型。传统理论的主要基本假设把社会中人与人的关系 看成规则网络,主要的预测模型是反应——扩散模型。随着现代化交通工具的发展, 此模型已经不能如实反映传染病传播的实际情况。近年来,大量的统计数据表明,社 会网络模型应该是“小世界”模型。由现代交通工具带来的社会网络的新特点,使得 研究现代流行病传播必须考虑小世界网络模型。 用小世界网络模型模拟SARS病毒的传播,成功得到了和现实病毒扩散相同的趋势,同 时指出与病毒传播速度相关的网络参量,并通过引入网络反馈提出控制病毒传播的几 种可能的手段和以后的发展可能性。 2019/2/4
20
模型构建 在模拟中取网络的大小为N=1 000 000,p=0.01,K值作为一调节参量待定。
根据SARS病毒的传播规律,把一个人的感染周期分为三个阶段:潜伏期、传染期和隔 离期。一个人被感染后进入潜伏期,假设平均为6天,在不同的人中是标准差为2天的 高斯分布。然后进入天数为T的传染期,期间每个和他有亲密接触关系的人都有pi的概 率被传染,接着被隔离治疗,假设为10天,最后康复重新进入网络中,忽略掉病人死 亡的情况。病毒传染情况可以用一个量S来表示: 其中传染率pi是相对固定的值,假设pi平均值为0.05,在不同的人中是标准差为 0.01的高斯分布,再根据实际情况调节K和T的值来观察病毒传播的情况。 实际模拟中首先在网络中引进一个病源,然后根据上述的规则演化,并每步记录总 的患病人数Nt和当天仍患病的病人人数Ni。 2019/2/4
21
模拟结果 网络参数对病毒传播的影响 有两个可调参数:K表示人们之间联系的密切程度,而T则表示发现并隔离病源的速 度。可以预料K越大,T越长,病毒就越容易传播;K越小,T越短,病毒就越难传播 ,模拟结果也证实了这一点。 病毒传播速度非常敏感地依赖于这两个参数,只要参数稍作变化,病毒的传播速度 就会有很大改变。 而且当T固定时,对于参数K,存在一个临界Kc值,当K<Kc时,病毒不能大范围传播 ,总患病人数到达一定的数目后就停止增长。而当K>Kc时,病毒将迅速传播直到所 有人都被传染。如当T=2时,有Kc≈14。下图展示了K对病毒传播的影响。 2019/2/4
22
平均连接边数K对病毒传播的影响 (两图均有T=2。左图K=10,病毒传播自动衰减;右图K=20,病毒迅速传播)
2019/2/4
23
下图则显示了T对病毒传播的影响。T只要增加1天,传染的速度就会大幅度增加, 其中K=20。
由此可见,不能及时发现病源和人们之间接触太多会非常有利于病毒的传播,初期 出现爆发正是由于这两个原因,要控制病毒的蔓延也正要从这两个方面入手。 2019/2/4
24
引入反馈机制后对病毒传播的影响 减小T值和K值可以抑制病毒的传播。T值的减小有赖于政府和医疗部门加强对病源 的搜查和效率的提高,而K值的减小则和制定的隔离制度和人们的自觉有关系。人 们的自觉性往往是一个渐变的过程,会随着疫情的变化而变化,是一个反馈过程。 具体的反馈过程如下:初始状态K=K0,当人们发现最近的连续3天(这是人们的反 应时间)当前患病人数Ni都增长的时候,人们每天就把平均连接边数K减小2,直到 Ni不再上升为止。模拟显示Ni和Nt随着时间的变化情况如图所示,说明现实中隔离 制度是正确的。 2019/2/4
25
但如果人们在SARS尚未得到控制之前放松警惕,不能贯彻好隔离制度,又会有什么 影响呢?可以利用小世界网络模型来看一看。在上述的反馈机制中加入一条,当人 们发现当前患病人数Ni<100并且最近连续3天Ni都减小时,就会放松警惕,每天把平 均连接边数K又增加2,直到Ni不再减小为止。模拟图显示人们放松警惕时Ni和Nt随 时间的变化曲线,其中T=2,K0=80。 2019/2/4
26
信息透明度对病毒传播的影响 实际情况中,不是所有人都能及时获得疫情信息从而开始自我隔离的。在这个小世 界网络模型中,引入一个叫信息透明度Ti的量来表征这种情况,Ti是知道疫情情况 从而会进行自我隔离的人占总人数的比例。从模拟图可以看到透明度对病毒的传播 也有重要的影响(其中K0=60,T=2,两条曲线分别为Ti=0.7和Ti=1.0的情况)。 很明显当透明度比较高时,疫情消失需要的时间比较少,高峰期患病的人数也比较 少,因此让人们尽早地知道疫情,从而做好预防措施也是控制疫情的有效方法。 2019/2/4
27
综合以上所提到的各种因素,可以拟合一下北京2003年的疫情发展状况。参考的是北 京2003年4月20日以来的部分数据,网络大小只有1百万,而北京的人口大概是1千万 ,所以把北京的患病人数除以10后作为模型的拟合数据。模型设计如下:一开始 K0=70,Ti=0.1,T=2,当Nt>30后Ti变化为1.0,每次反馈时如果需要进一步自我隔离 则K值减小4,其他参数不变。 可见利用小世界网络模型模拟的结果和北京SARS疫情的发展吻合得很好,说明了用小 世界网络模型来模拟人类社会,并研究、预测疾病的传播是比较成功的。 2019/2/4
28
案例2: Your Choice Reveal Who You Are 美国南部某小城镇一组女士的社交结构
20世纪30年代,一组社会学家和种族学家做了一个很小的“数据挖掘”实验。他们的 目标是描绘出美国南部小城镇的一组女士的社交结构图。 谁和谁是朋友? 她们属于哪些社交圈? 谁在社交圈中起到了关键作用? 是否有可能只通过检视公共行为来推导出网络结构? 当地报纸上公开发表的数据 18个女士参加14个不同的社交活动 Valdis Krebs. "Your Choice Reveal Who You Are: Mining and Visualizing Social Patterns" in: Beautiful Visualization, Julie Steele, Noah Iliinsky (eds.), O'Reilly Media, Inc. Sebastopol, CA, 2010, pp 2019/2/4
29
双模式分析(节点有两类,如下图-南方女性)
单模式分析(一种类型的节点) 双模式分析(节点有两类,如下图-南方女性) 左边的蓝色节点表示受研究的女性,而右边的绿色节点表示参加的每个活动。 用圆圈表示人,方框表示活动。 2019/2/4
30
把双模式数据转换成单模式数据 确定节点和连线 节点布局
31
“逐步纳入”,首先专注于结构图中最强的关联,然后逐渐降低阙值找出弱关联, 允许更多人和已经存在于结构图中的人进行关联。
找出自然形成的社交网络 “逐步纳入”,首先专注于结构图中最强的关联,然后逐渐降低阙值找出弱关联, 允许更多人和已经存在于结构图中的人进行关联。 从最大强度连接开始(设为5级,5最强) 接下来,包含下一强度级别的连接:强度为4的连接 2019/2/4
32
包含强度为3的连接之后 阈值降低到强度为2 2019/2/4
33
两个聚类之间是连接的。社交重叠说明了两个聚类之间的兴趣和关系存在一些可能 的共同性。
该社交网络揭示了: 存在两个显著不同的社交聚类。 两个聚类之间是连接的。社交重叠说明了两个聚类之间的兴趣和关系存在一些可能 的共同性。 产生各种不同的网络角色。 6号女士可能不会受到12号女士的言谈举止的影响。 4号女士可能在蓝色聚类内有最高的内部影响。 蓝色分组的9号女士是“黏合剂”。 16号、17号和18号女士可能是小镇新来的。 2019/2/4
Similar presentations