开发者参加某个项目 Developer Onboarding in GitHub: The Role of Prior Social Links and Language Experience 和该项目中的多少人有关联 使用过的编程语言 Casey Casalnuovo, Bogdan Vasilescu,

Slides:



Advertisements
Similar presentations
讀經教育  第一組:吳碧霞、陳鍾仁  第二組:吳雪華、謝濰萁  第三組:邱國峰、林佳玫. 不論上智下愚 成功的教育 讓每個孩子 都能成為最優秀的人才.
Advertisements

护理部教学管理 南医大二附院 张淑芬. 护理部主要工作:  培训  质量  教学科研 临床教学的秘诀 What – 需要的、喜欢的 Who – 教师的角色 – 学生的程度、学习方式 How – 教学方法.
做中學健康醫學網融入健體領域之 教學活動設計 — 生活技能篇 研討會 夥伴學校:嘉義市垂楊國小 輔導委員:國立台北教育大學副教授林佑真 PPT 設計製作者 黃雅文、倪琪琇、林佑真.
校內圖書代借服務 服務開始: 99 年 2 月 22 日起 服務對象:本校教師及博碩士班學生 申請上限:每人每月申請 5 冊為限 申請範圍:總館館藏開放於人社分館取書;人社分館館藏開放於總館取 書。原館藏地之館藏借閱仍維持自行到各館舍辦理。
Project ManagementDay 2 in the pm 项 目 管 理( PM ) 执 行.
仪 容. 一、化妆的技巧 眼部的化妆 唇部化妆 眉部化妆 鼻部化妆 根据脸型化妆 根据脸型选发型.
何仕仁 主任. 國立彰化高中數理資優班 柯承翰、柯宗賢、曾品祥 國立彰化高中數理實驗班 柯宗逸、辛百弘 國立彰化女中數理資優班 姚彤錦 國立彰化女中語文資優班 陳思穎 國立彰化女中數理實驗班 姚曉蓉.
補救教學理念與實施分享 新豐國中姜瑞玉. Why ─ 為何要實施補救教學 各國老年人口變化圖 國中在學階段 2 大重點 1. 國中教學正常化及 學力品質確保 2. 國中適性輔導 適時進行校、班本位 診斷性測驗及 補救教學.
新闻写作基础知识 一. 新闻导语 二.新闻主体 三.新闻结构 四.角度选择.
第二章 中药药性理论的现代研究 掌握中药四性的现代研究 掌握中药五味的现代研究 掌握中药毒性的现代研究 了解中药归经的现代研究.
人力资源管理师辅导讲座 ——案例分析及解题要点
第一部分 考试总体分析 第二部分 命题思路与答题方法 技巧分析
第二章 教育技术理论基础 第一节 视听教学理论 一、经验之塔 1. 知识的获取 直接经验 间接经验 抽象经验
對於學習不力學生的學習輔導經驗分享 張其清 新北市立新北高工 主任輔導教師.
使用說明 高年級 破解賽恩思 (Science)密碼 編輯群 明湖國小 吳立明 老師 李惠雯 老師 林宜璇 老師.
国家自然科学基金项目申请 经验交流与心得体会
广西师范大学教科院马佳宏 电 话 0773- (O) 高校教师资格认定考试的若干事项 广西师范大学教科院马佳宏 电 话 0773- (O)
高考主题讲座 高考语文 董 腾.
第2讲:项目的评价和选择.
第六章 顾客购买行为分析 学习目标 了解顾客购买行为分析的模式 理解消费者购买行为的特征和类型 掌握影响消费者购买行为的因素
Lecture 2 研究計劃撰寫前準備 授課老師:李怡佩.
要SHOW才會贏 教你在生活中學企劃 救國團總團部活動處 文耀忠.
防災教育管理與資源整合 主講者:康麗娟.
加油添醋話擴寫 日新國小 鄒彩完.
長期照護.
十二年國民基本教育 高雄區入學方式說明 報告人:中山工商 楊薇主任.
思维,决定一切 -公司战略、企业文化与人力资源的思辨
案例研究报告撰写.
資2-6-3 能發現並討論問題 教育部增置國小圖書教師輔導與教育訓練計畫 圖書資訊利用教育教學綱要及教學設計小組
讀 報 活 動 報紙版面知多少.
報告即將開始.
义务教育新课程标准实验教科书 九年级历史下册课堂教学设计
為有特殊教育需要學生 提供特別評估安排 教育局 2011年12月2日.
从2008年度时尚先生看我们的时代精神方向.
學習行為觀察與評估 講 師:陳怡華.
你 今 天 累 吗 ? 坪山高级中学心理教师 张婧乔.
罗湖区第二届智慧杯中学政治学科小课题研究
克薩技術 vs 傳統配種 克薩人.
现代教师的职业素养与职业理想 程红兵.
离职流程精细化标准推进材料 人事行政处.
國語科補救教學 龍華國小 許如菁.
你的潜能是无限的 ——高三心理辅导.
中职教师的职业素养 主讲人:苏力.
新聞報導 一、什麼是新聞? 1、狗咬人不是新聞,人咬狗才是新聞 2、大眾關切的事 3、讀者有興趣知道的事 4、接近性.
GitHub 2015/10/28 鄭雅馨.
Journal Citation Reports® 期刊引文分析報告的使用和檢索
加油添醋話擴寫 鄒彩完.
Unit title: 假期 – Holiday
Gender and Tenure Diversity in GitHub Teams
Git & github By 宋正倫 (修訂by jmchen).
---八上新教材分析 青岛三十九中学 孙晓霞
Customer Expectations of Service
Github已有工作调研 邹卫琴 南京大学 , 南京.
GitHub挖掘已有工作调研 邹卫琴 南京大学 , 南京.
Version Control System Based DSNs
Git使用入门 —johnson.
107學年度高雄區 實用技能學程輔導分發 五福國中說明會
新地義工Team力量 新地致富兒童成長嚮導計劃
关于开源软件的几篇论文.
創意創新創業企劃師-乙級 創意創新創業企劃師-丙級 證照培訓檢定
102-2金融法規(2~4) ~03..
如何检索统计申请与在研项目(科研人员) “科研之友”技术支持小组
從前有一棵樹……. 從前有一棵樹…… 她好愛一個小男孩。 每天男孩都會跑來, 收集她的葉子, 把葉子編成皇冠, 扮起森林裡的國王。
2015 IEEE/ACM 37th IEEE International Conference on Software Engineering Assert Use in GitHub Projects 周星宇.
南投縣106年度 結合家長會防制學生藥物濫用宣導
面試Cosplay 2015/03/31 by江宜倩.
序言 報告內容: 你對父母的感覺 你與父母的關係 你是否與父母同居 你與父母見面的時間 每天與父母的談話時間 與父母談話的內容 結論 感想.
議題: 複製人.
活動主題:能「合」才能「作」 指導教授:張景媛教授 設 計 者:協和國小團隊 李張鑫 × 陳志豪.
第一节 计划的概念及其性质 第二节 计划的类型 第三节 计划编制过程
Presentation transcript:

开发者参加某个项目 Developer Onboarding in GitHub: The Role of Prior Social Links and Language Experience 和该项目中的多少人有关联 使用过的编程语言 Casey Casalnuovo, Bogdan Vasilescu, Premkumar Devanbu, Vladimir Filkov Computer Science Department, UC Davis FSE 15 GitHub数据,可以做什么? 合适的研究问题:有价值,有意思,有新意 研究可行性:直接使用GitHub的数据就可以表达和验证,无需问卷调查等其他手段 数据处理 数据分析:对研究问题使用统计学工具进行验证

研究动机 背景: 开发者为什么会加入一个开发团队? 开源团队:多样,流动性,双向选择 开发者无法预测项目的未来 GitHub: Social Coding

研究问题 项目中有老搭档 加入可能性 曾经的社交关系和 语言经验 加入时的生产力 曾经的社交关系和 语言经验 全程的总生产力 RQ1: Do prior social connections matter when developers join new projects? That is, are they more likely to join projects in which there are developers they have already collaborated with in the past? RQ2: How does the presence of past social connections, and their strength, influence initial developer productivity in both familiar (past language experience) and unfamiliar project environments (no past language experience)? RQ3: What is the effect of past experience and prior social connections on how productive a developer will be overall in a project? 曾经的社交关系和 语言经验 加入时的生产力 曾经的社交关系和 语言经验 全程的总生产力

结论 开发者更倾向于加入到和其中成员有曾经合作关系的项目 开发者参加一个新项目中,如果其中有曾经的合作者,初始生产力比 baseline 增加 3.7% ~ 6.2%;如果主语言是开发者曾使用过的,结果类似。 Prior Language Experience 和 Prior Social Connections 会大大提高开发者在项目中累积的生产力,29.5% ~ 54.3% 有 Prior Social Connections 但是没有 Prior Language Experience,会让累积生产力超过 baseline 的可能性降低 9.6% 更强的社交关系,会略微降低初始生产力;但会增强累积生产力

数据收集 数据来源:GHTorrent(截止到 2014/11/1),diversity data set 开发者筛选:至少5年,500条commit,10个项目(fork项目除外) 1274个开发者:65280个项目  git clone  58170个项目  git log  1255个开发者:58092个项目 提交日志:识别author,file,added and deleted lines. 解决多个email和username指向同一个开发者的问题 时间划分 (项目参与: t1~t10;计算生产力:只考虑t1~t9加入的开发者) 语言估计:后缀,34种(top20+GitHub11+other+ambiguous+头文件) t0 t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 08/4/1 2009 2010 2011 2012 2013 2014

建模项目参与 原假设:参与项目完全随机 检验:每个开发者所有时间段累积,每个开发者各个时间段(如果该时间段该开发者没有参与项目,或者没有prior social links,则不考虑) 超几何分布: N:该时间段之前还未参加的项目数;K:其中有prior social links的项目数 n:该时间段开发者参加的项目数;k:其中有prior social links的项目数 结果

建模参加后的生产力 因变量 负二项分布:over-dispersed count data(variance 远大于 mean) Productivity:修改文件数 其他选择:commit数(不够细),增/增删行数(噪音多) 过滤特异点: 超过50个文件的提交 超过20的prior link 累积模型中开发者超过500个文件修改的项目过滤

自变量:Prior Social Connections Stable pair:两个开发者至少共同贡献2个项目 开发者D和项目p的 initial social connections: 另一种方案:不进行team size的规范化,选择最强联系的权重,只看都是主要贡献者时的关系  回归模型类似,但显著性和解释能力下降 Past Experience:每种语言修改文件的数量 相关的人 合作的项目 team size

控制变量 Project Team Size:参加时有多少人已加入 Total Productivity per Time Period:在整个社区中的修改文件数,参与项目数(考虑累积生产力时,参与项目数用以前参与的项目数代替) Joining and Founding:加入 / 创建(项目commit的第一天提交) Time Period Joined:哪个区间加入(对累积生产力有影响) 其他:项目大小,和team size相关,不考虑

GitHub 数据统计可视化示例 http://langpop.corger.nl/ http://danielvdende.com/gdc2014/ http://githut.info/ http://geeksta.net/geeklog/exploring-expressions-emotions-github-commit-messages/

谢谢