Gender and Tenure Diversity in GitHub Teams 杨涛 MF1632089 2016年12月26日
背景和目的 背景:团队中的各种差异会影响团队产出 目的:探究以下三个问题 在线团队在性别和任期方面的差异有多大? 性别差异的大小是否和任期有关?和团队规模有关? 性别和任期如何影响团队产出(生产力)?
调查 目的:了解Github上的项目团队是如何看待团队协作和团队差异 的。 条件:将一个repo和其fork的repo视为同一个项目。 根据性别(男,女,未知)和参与了多少项目(1个;中等数量2~6个; 大量7个),从以上的组合中,每个组合随机选择500个有e-mail地址的 开发者。 共4500人,发邮件进行问卷调查 调查概况 共收到了816个回复,19%的回复率 199人(24%)为女性 年龄14~66(中位数29,平均数30) IT从业时间0~44年(中位数8,平均数10.5) 人数大多来自北美和欧洲(美264,德52,法42,加拿大34)
调查结果 发现1: 约有2/3的人认为他们是项目repo中的一员,女性(76%)略多于男性 (63%)。女性在团队行为中会投入更多情感。 问:他们认为谁还是项目成员? 最多的答案(44%):任何一个对这个项目中有贡献的人。(男女对这个问题的回 答没有统计学上的显著差异) 发现2: 问:是否知道其他成员的实际情况(年龄,性别,政治观点,编程水平, 真实姓名,社会技能)? 98%答:知道一些项目团队成员的编程水平(说明编程水平是最可见的) 48.6%答:知道大部分团队成员的性别(如果性别属性这么突出,那么说明性别歧 视在团队中存在。性别上的差异可能在团队中带来复杂的影响) 性别和政治观点:3%知道大部分,17%知道部分(some)
调查结果 发现3: 正面情感: 负面: (40,男,北美)代码贡献比人的性格重要 (26,女,北美)项目中人口统计学的上的差异和项目是不相关的 (36,男,欧洲)代码中看不出性格和性别 (29,女,欧洲)当意识到自己是团队中的唯一女性,而且没有性别歧视存在时, 感觉自己更受欢迎并且更乐意为项目工作 负面: (23,女,北美)(40,女,北美)被要求伪装成男性或者退出项目 (38,女,北美)自己领导的项目大多是正面情感,但是参与的其他项目会有性 别歧视出现
调查结论 结论1:团队成员之间通过对项目做出贡献(make contribution) 互相认识 结论2:团队成员之间互相了解项目成员的一些特点,性别、技 术水平 结论3:差异性会对团队成员造成影响,但是影响结果还不确定
数据分析 数据来源:GHTorrent 数据清理: 性别识别: 合并使用多个账户的开发者(具有相同的e-mail地址,或者账户有多个 可信的属性是相同的);有超过17W的用户拥有多个账户(中位数2,平 均数2.4,最大值14) 取20080101~20140102之间的数据 去除不活跃项目(少于100次提交或少于90天的活动时间) 为了更好的发现项目产出上的差异,去除小项目(不超过4个项目成员, 提交代码者不超过2个) 如果一个项目中有超过75%的项目成员无法获取性别,去除该项目 性别识别: 结合所在国家和人名进行判断(例如,国家是俄罗斯名字以娃(-ova) 结尾的认为是女性) 通过这个方法获取了32.6%人的性别:91%男,9%女
数据分析 度量: 变量 控制变量: 团队生产力:项目的commit数 人员流动(turnover):将项目成员定义为在一个给定季度内有活动 (commits,pull requests,issues等)的成员的集合。流动就是比较不同季 度间的项目成员数量。 变量 性别差异:使用多元化指数度量性别差异1-Σpi^2,差异越大指数越大 任期差异: 提交期(commit tenure):成员在一个季度中第一次和最后一次提交时间所包含的天 数 项目期(project tenure):成员在一个项目从最早开始活动到最后一次活动的季度数 控制变量: 团队规模、fork数量、季度编号、项目活动、项目时长等
数据分析 对以上计算数据进行统计学分析
数据分析 对以上计算数据进行统计学分析
结论 性别和任期的多样性会带来更高的团队生产力。 女程序员在软件团队中是少数。本文的研究证明,在更大范围上, 增加对女程序员的教育、专业技能培训、扩展培训等方面的投资 会增加总体价值。