数据分析与可视化 张腾 zht@cup.edu.cn
讲座内容 1 数据与图形之间的联系 2 研究论文插图标准 数据分析与可视化工具 3 4 数据分析与可视化实例
1 数据与图形之间的联系 Graphical Displays* Show the data Tell the truth Help the viewer think about the information rather than the design Encourage the eye to compare the data Make large data sets coherent *Edward R. Tufte., 《The visual display of quantitative information》
1 数据与图形之间的联系 Tufte设计的报告插图* *Edward R. Tufte., 《The visual display of quantitative information》 https://www.edwardtufte.com/tufte/index
2 研究论文插图标准 科技论文 插图标准 3 2 重点热点期刊 投稿要求 1 高被引论文 SCI热点论文
2 研究论文插图标准 我校SCI高被引论文(2006-2015) ESI Highly Cited Papers: Top 1% papers from each of 10 database years
2 研究论文插图标准 我校SCI热点期刊(2004-2015) 根据SCI收录论文数量排序 涉及我校主要学科
2 研究论文插图标准 我校发表论文所在期刊的主要出版商
2 研究论文插图标准 插图(Illustrations)尺寸与字体 Journals Figure lettering Size (mm) Nature Geoscience Helvetica, Symbol 88, 170 Energy & Fuels Times, Symbol 84,106,178 APPL CATA B-ENVI FUEL Arial (or Helvetica), Courier, Symbol Times (or Times New Roman) 90,140 190 Petroleum Science Helvetica or Arial 39, 84 129, 174 插图中字体主要分为有衬线、无衬线以及特殊符号字体 插图尺寸主要根据版面栏目宽度规定:单栏、双栏等
2 研究论文插图标准 插图图形格式、分辨率与颜色模式(表1) DPI:点阵密度/分辨率 Publisher Type Format Mode Nature Line art, graphs, charts & schematics Vector: EPS, AI, PDF MS Office accepted 1200 CMYK Photographic & bitmapped images: color TIFF 300 600 Photographic & bitmapped images: greyscale Wiley Color & greyscale TIFF, EPS (with preview) Bitmapped line chart RSC Figures & graphics TIFF, EPS Photographs TIFF, JPEG, PDF ACS Line chart TIFF, EPS, PDF ChemDraw files RGB Greyscale Color art DPI:点阵密度/分辨率
2 研究论文插图标准 插图图形格式、分辨率与颜色模式(表2) Publishers Type Format DPI Mode Elsevier Line art-vector EPS PDF Line art-bitmapped TIFF 1000 RGB Grayscale images TIFF JPEG: Maximum quality 300 RGB images Combination Art: color 500 Combination Art: vector EPS Springer Vector EPS, MS Office Scanned & bitmapped line drawings TIFF, MS Office 1200 Halftones 600 Combination artwork Taylor All illustration files EPS, TIFF, PDF only
2 研究论文插图标准 插图图形标准总结-颜色模式与文件格式 颜色模式 调查样本中只有NATURE要求CMYK模式 RGB模式图像打印显示和电脑显示有一定差别 CYMK打印显示更接近电脑显示 文件格式 TIFF、EPS以及PDF格式认可程度最高 矢量图多用EPS,位图多用TIFF、EPS等 MS Office和JPEG在某些情况下不被认可
2 研究论文插图标准 插图图形标准总结 图形分辨率 矢量图(AI、EPS等)对DPI不作要求 不同类型位图对DPI值得最低要求不同,曲线图、数据图表、线条示意图位图以及扫描图片等最低DPI为1200,灰阶位图最低DPI值为500,彩色位图最低DPI为300 不同出版商对插图DPI限定值存在差异,RSC对所有插图要求DPI值不低于600,Taylor等对所有插图则要求DPI值不低于300
2 研究论文插图标准 Illustrations 插图类型 Graphs Combination artwork Line Charts Schematics Illustrations Photographs Images Scanned & bitmapped line drawings Halftones
2 研究论文插图标准 插图类型 数据图 示意图 实验图 Illustrations 组合图
2 研究论文插图标准 数据图主要类型 XY 数据图 Column Map
2 研究论文插图标准 我校论文插图类型分析 统计源为我校12篇高被引论文,共200个Figure 论文插图中数据图占比最高,实验图最低 数据图主要为XY和Column类型的,绝大多数为XY型
3 数据分析与作图工具 What 基本概念 数据 分析 Why 分析意义 How 合适工具
3-1 数据分析基本概念 数据分析概念 数据分析在统计学、计算机学以及社会学等领域的定义不尽相同 数据分析是一个应用科学分析方法将数据转化为有用信息的过程 统计学方法 机器学习 社会网络分析 数据可视化
3-2 数据分析意义 女排成功的幕后英雄都有谁呢?
3-2 数据分析意义 这位幕后英雄做什么工作呢? 实时分析每名球员或每种动作的效率
3-2 数据分析意义 数据分析和可视化技术在竞技运动中具有重要价值 数据分析和可视化技术对于以数据为基础的研究尤为重要
3-3 数据分析与作图工具 如何选择数据分析与作图工具? 分析要求 图形功能 难易程度 其他 应用范围 图形模板 分析深度 矢量图处理 多元统计 图形模板 矢量图处理 图形定制 难易程度 其他 用户界面 中文化 流行程度 软件授权 配置要求 使用效率
3-3 数据分析与作图工具 如何选择数据分析与作图工具? 工具名称 分析要求 图形功能 难易程度 其它 Excel 基本统计分析 多元统计弱 图形模板丰富 矢量图较弱 图形定制弱 简单易学 商业授权 Origin Lab 多元统计较弱 矢量图较强 图形定制强 SPSS 大部分分析 图形定制较弱 难度适中 R语言 几乎所有分析 图像模板丰富 图形定制较强 较难学习 自由使用 Python语言
3-3 数据分析与作图工具 Origin工作界面介绍 一般步骤
3-3 数据分析与作图工具 Origin主要用于工程绘图和数据处理 Origin 图形绘制 数据分析 图像分析 数字信号
3-3 数据分析与作图工具 R Studio工作界面介绍 一般步骤 数据对象 R命令文件 命令输入区 绘图结果
3-3 数据分析与作图工具 SPSS工作界面介绍 一般步骤 强大易用的数据挖掘功能
Ipython Notebook工作界面介绍 3-3 数据分析与作图工具 Ipython Notebook工作界面介绍 一般步骤 边写笔记边做数据分析与作图
4 数据分析与作图实例 1 企业质量管理 数据分析 应用实例 2 我校学科评估 3 石油产品技术发展
项目目的 验证提高汽车钢板长度加工精度的影响因素 4-1 企业质量管理 汽车钢板长度影响因素分析 项目目的 验证提高汽车钢板长度加工精度的影响因素 项目概况 项目前期工作已发现汽车钢板长度与计算机设定值、原料涂油、测量轮压力和测量轮补偿系数有关,现在需分析试验数据以验证该推论 分析工具 基本统计分析
4-1企业质量管理 数据——汽车钢板长度影响因素分析
4-1企业质量管理 如何分析这些数据——根据数据属性 序号 影响因素 数据类型 分析工具 1 设定长度 连续 相关性、回归 2 来料涂油 离散 成对T检验 3 测量轮压力 4 测量轮补偿系数 Origin 、Excel二者具有均可进行相关性分析、 回归分析以及假设检验等数据分析方法
4-1企业质量管理 相关性分析-钢板设定长度与实测长度
4-1企业质量管理 相关性分析-钢板设定长度与实测长度 计算机设定长度与实际长度线性相关系数为0.99897 二者具有强线性正相关性
4-1企业质量管理 Origin成对t检验工具 选择Pair sample-t test工具
4-1企业质量管理 成对t检验参数设置 参数设置: Test Mean 期望均值 = 0 Input Data form 输入数据格式选择RAW
4-1企业质量管理 成对t检验结果 不涂油钢板长度数据波动较大 P值小于0.05%,表面涂油与不涂油差异显著
4-1企业质量管理 Origin数据作图-XY数据图 初始图形 成品图形
4-1企业质量管理 Origin图形设置主要内容 一般步骤 图形 设置 坐标 图层 图例 图形模板 数据
4-1企业质量管理 Origin图形模板功能——存为模板 一般步骤
Origin图形模板功能——启用模板作图 4-1企业质量管理 Origin图形模板功能——启用模板作图 一般步骤
4-1企业质量管理 图形文件格式以及用途 文件导出注重分辨率和图片大小要求
4-1企业质量管理 图形导出界面 Origin几乎支持所有图片格式
4-2 我校学科评估 实例1 分析我校工程学科竞争力国际定位 项目目的 确定我校工程学科科研竞争力 项目概况 为客观、全面地地评价学科科研竞争力,本项目从生产力、发展力以及创新力等多个角度对学科科研竞争力进行评价 分析工具 多维数据可视化分析
4-2 我校学科评估 数据——我校工程学科国际定位 评价数据共有7个维度,如何利用图形展示? 学校 WoS 论文数 学科规范化 引文影响力 被引 频次 引文 影响力 高被引论文 高被引论文百分比 被引次数排名前10%论文百分比 Univ of Texas Austin 3611 1.31 39771 11.01 57 1.58 13.18 Univ of Alberta 3047 1.29 34177 11.22 35 1.15 12.44 Univ of Western Australia 1388 1.36 14954 10.77 12 0.86 13.76 Curtin Univ 1230 13039 10.6 38 3.09 16.91 Univ of Houston 930 1.11 9456 10.17 11 1.18 10.32 China Univ of Petroleum 1664 0.88 7601 4.57 14 0.84 6.19 King Saud Univ 1144 1.08 7367 6.44 20 1.75 11.45 Univ of Aberdeen 523 1.33 5820 11.13 10 1.91 14.34 Univ of Buenos Aires 318 0.9 2767 8.7 3 0.94 9.43 Univ of Tulsa 232 0.71 1431 6.17 1 0.43 6.47 评价数据共有7个维度,如何利用图形展示?
4-2 我校学科评估 雷达图展示我校工程学科国际定位 生产力指标:TotalP 影响力指标:CNCI、TotalC、Citel、HCP 发展力指标:HCP%、TOP10%
4-2 我校学科评估 雷达图展示我校工程学科国际定位
4-2 我校学科评估 实例2 分析我校科研国际合作现状 项目目的 构建我校科研国际合作网络 项目概况 基于我校科研论文合著情况,探索我校科研国际合作发展情况 分析工具 利用R语言进行Map数据分析与作图
4-2 我校学科评估 数据——我校科研国际合作现状 世界地图数据 论文合作数据 学校联系数据
4-2 我校学科评估 图形——我校研究论文国际合作情况
4-2 我校学科评估 数据分析程序片段——更正地图数据 网上找到的世界地图数据包一般具有争议 #Replace Taiwan with China df <- as.data.frame( lapply( world,function(x) if( is.character(x) | is.factor(x)) gsub("Taiwan","China",x) else x)) 网上找到的世界地图数据包一般具有争议 利用gsub函数将所有“Taiwan”替换成“China”
ggplot2包绘图特点——“叠加式”绘图 4-2 我校学科评估 ggplot2包绘图特点——“叠加式”绘图 gg <- ggplot() #绘制地图背景 gg <- gg + geom_map(…) #绘制数据点 gg <- gg + geom_point(…) #绘制线条 gg<gg + geom_segment(…) ggplot2将数据分析与可视化有机结合起来 ggplot2“叠加式”作图方式非常适合制作内容丰富的图形(比如地震活跃区域地图等) http://docs.ggplot2.org/current/index.html
4-2 我校学科评估 实例3 预测我校化工学科排名 项目目的 预测2016年教育部评估中我校化工学科的排名情况 项目概况 为更好地了解我校化工学科客观实力,本课题基于教育部评估指标体系分析了我校和部分高校的化工学科实力 分析工具 利用MySQL+Excel构建快捷易用的数据分析平台
4-2 我校学科评估 实例3 预测我校化工学科排名 项目目的 预测2016年教育部评估中我校化工学科的排名情况 项目概况 为更好地了解我校化工学科客观实力,本课题基于教育部评估指标体系分析了我校和部分高校的化工学科实力 分析工具 利用MySQL+Excel构建快捷易用的数据分析平台
4-2 我校学科评估 教育部学科评估指标体系
4-2 我校学科评估 分析用数据来源与数据格式 评价指标 来源 数据格式 人才计划 千人计划官网 教育部官网 高校官网 网页、pdf、word、excel 平台资源 科技部、教育部、高校官网 课程成果 教育部、研究生学位与教育网站 word、pdf 博士学位 高校学位委员会公告 网页、pdf、excel 学术论文 Incites数据库 csv 教育部网站公告 pdf、word 专利奖 知识产权局网站 pdf 国家科学技术奖 专题网站 网页 石油和化学工业联合会奖 高等学校科技奖 国家研究计划 科技部网站公告 自然科学基金 科研基金共享服务网 学术期刊 高校网站
4-2 我校学科评估 数学分析平台 数据 数据 搜集 可视化 MySQL Origin Lab Excel ggplot2 Python 清洗 数据 分析 Python R
4-2 我校学科评估 Excel与MySQL协同处理数据 Excel MySQL 企业级 数据存储 操作便捷 数据查询 数据运算功能丰富 功能强大 数据运算功能丰富 多人协作
4-2 我校学科评估 Excel与MySQL协同处理数据
Excel与MySQL协同——补充缺失字段 4-2 我校学科评估 Excel与MySQL协同——补充缺失字段 表一 表二 如何补充缺失的字段“app_type”
4-2 我校学科评估 利用MySQL数据查询方法补充缺失字段 select bib_pat.app_type, award_pat.app_sn from bib_pat right join award_pat on bib_pat.app_sn = award_pat.app_sn
4-3 石油产品技术发展 石油树脂加氢技术发展状态分析 项目目的 分析石油树脂加氢技术发展前景 项目概况 氢化石油树脂产品经济效益高,我校某课题组有开展此项技术研究计划,现需要对该技术发展前景进行分析 分析工具 利用Excel分析专利数据
4-3 石油产品技术发展 数据——1970-2016年相关技术专利信息
4-3 石油产品技术发展 专利表征的技术发展生命周期 衰退期 成熟期 复苏期 专利申请件数 成长期 萌芽期 专利申请人数
4-3 石油产品技术发展 需要统计的数据 专利申请人 1970-1979 1980-1989 1990-1999 2000-2009 2010-2015 IDEMITSU KOSAN CO 1 3 16 11 ARAKAWA CHEM IND 14 5 EXXONMOBIL CHEM PATENTS INC HERCULES INC 10 EXXON RESEARCH ENGINEERING CO 9 MITSUI CHEMICALS INC 4 MARUZEN PETROCHEM CO LTD 专利件数 22 59 40 24 专利申请人数 7 6
4-3 石油产品技术发展 如何统计所需数据?——数据透视表 Excel数据透视表功能是一种灵活便捷的数据统计工具
4-3 石油产品技术发展 石油树脂加氢技术发展现状 石油树脂加氢技术目前处于衰退期
谢谢大家! 张腾 tenix@outlook.com
数据分析与可视化教育群