从媒介大数据到未知的社会计算 清华大学沈阳团队 @新媒沈阳 www.gsdata.cn 修订版1.3 清博指数 清博 清博舆情
你去电影院受什么因素影响?
我们在时空中是如何移动的?
媒介数据 媒介的数据属性 媒介内容的数字化,媒介数据的内容化 媒介数据的具体形式 媒介产业、媒介企业、媒介产品、媒介要素、媒介生态 不能数字化的媒介暂时不具备大规模挖掘价值 不可公开获取的媒介数据暂时不具备重复实验的基础
媒介数据挖掘 一般是指从大量的媒介数据中通过各种手工或软件方法获取隐藏于其中信息的过程 跟淘金有类似之处 如何找数据富矿,在有限时间内提升挖掘效率和产出
Ways to get gold from earth Panning cradle hydraulic mining – damage to environment https://view.officeapps.live.com/op/view.aspx?src=http%3A%2F%2Fesources.etiwanda.k12.ca.us%2Fdocuments%2FFourth%2520Grade%2FTechnology%2FIntel%2520Units%2Fcalf_gold_rush_garcia_karen%2Fimages_sounds%2Fgold%2520miner.ppt
移动视频直播 网红和 移动视频直播
世界正在发生什么?
微信搜索和微博搜索、网页搜索的区别在哪里?
内容挖掘的起点字频统计软件 金庸小说到底用多少字?
金庸的特点 不道的了人 是他我一这 5266个汉字 信息指纹和红楼梦研究 行为指纹,匿名身份归一
网友的顶级游戏之作(1) 平生 风雨 江南 文章 千里 桃李 万物 万里 不可 故人 明月 日月 不能 不知 何时 不见 春风 风流 南山 古人 无人 百年 安得 不如 归来 读书 万事 少年 今日 江湖 君子 如此 白发 挽词 人间 不得 富贵 胸中 草木 主人 东坡 想见 天地 四时 寂寞 以为 禅师 白头 十年 风吹 白云 翰墨 四海 道人 邂逅 天下 人生 诗书 十二 十六 二十 绝句 兄弟 再次 功名 文字 一笑 无心 行李 至今 堂堂 何如 岁寒 有余 人言 罗汉 何处 新诗 清风 相见 月明 江山 十五 荆州 落日 十四 一日 山川 春色 惟有 萧萧 车马 西风 从来 可怜 叔父 天上 当时 老翁 把酒 谁知 风月 有人 众生 即事 先生 佳人 不及 …… 花气薰人帖
戏集黄鲁直高频词缀句 村之书 作 平生风雨江南(102,86,79) 文章无人不知(78,47,55) 诗书风月佳人(28,21,21) 众生车马四时(21,22,33) 至今故人不见(25,86,55) 功名四海谁知(26,31,21) 白头从来可怜(32,22,22) 何如少年当时(25,42,21) 富贵胸中草木(37,37,36) 南山明月禅师(49,58,32) 天地无心寂寞(33,25,33) 不知今日何时(55,41,55) 老翁把酒翰墨(21,21,31) 何处邂逅新诗(24,30,24) 落日江湖一笑(23,40,26) 相见天下挽词(24,29,37) http://cunzhishu.ycool.com/post.2140391.html
Win32 API Web API 语义网络 社会网络 泛在网络 复杂网络 UciNet NetMiner MatLab 聚类 分类 微信 微博 网页 文档数据库 元搜索引擎 各文档格式 新闻 客户端 语义网络 社会网络 泛在网络 复杂网络 UciNet NetMiner MatLab 聚类 分类 内容挖掘 情感分析 共现分析 倾向分析 频度分析 相似分析 相关分析 SPSS 其他工具 清洗 挖掘 宏观结构化 微观无结构化 分词 元素抽取 语义 对象 带属性压缩矩阵 文献导入层 文献挖掘层 文献表现层
社会网络抽取模型 输 入 元搜索引擎 张艺谋 陈凯歌 …… Google 百度 搜狗 有道 社会网络 收集元所搜引擎返回的目录 二次查询 输 出 网页元数据(标题、时间、链接、摘要….) 前200的高频关键词对 辅助定义文档 网页消重抽取字段共词分析
赵云的社会网络(一个小Bug)
意见领袖各季度博文总量及转评总量趋势图
各类意见领袖成长分布
意见领袖分析 点子正 胡锡进 染香 韩寒 王克勤、朴抱一 记者刘虎 20 注:部分意见领袖首发微博已被屏蔽
舆论场波澜起伏 选取网络活跃人群中较有代表性的两种价值取向人群,红色价值取向:司马南、孔庆东、染香、点子正、吴法天、司马平邦、胡锡进、戴旭、郭松民、不沉默的大多数10人;普世价值蓝色取向:李开复、薛蛮子、潘石屹、任志强、作业本、袁裕来律师、作家-天佑、于建嵘、徐昕、李承鹏10人。 8月以来红色价值取向派占据主流活跃舆论场,人均每日微博量为22条,蓝色价值取向派为16条。蓝色价值取向派8月底后活跃度明显下降,从日均17条下降到14条左右,红色价值取向派活跃度激增,从日均18条上升到24条。 一方面大V李开复患病、薛蛮子被捕、李承鹏禁言、于建嵘下乡会影响到大V活跃度,另一方面打谣行动后多数大V开始谨言慎行,坚守“七条底线”。
激进左派 温和左派 中性 温和右派 激进右派 政治 宪政、民主 √ 政府现有路线 大政府 党的执政合法性 × 毛泽东和文革 平等与公平 经济 土地私有制 市场经济 ○ 国企私有化 全球化 文化 西方普世价值 儒家传统文化 新闻自由 西方 政治经济制度 美国政府
共333位意见领袖
互动频率大于20的微博意见领袖关系图
微博意见领袖互动类型划分 整体 激进左派 温和左派 中性 温和右派 激进右派 对象外扩型 138 7 17 10 97 对象内聚型 192 整体 激进左派 温和左派 中性 温和右派 激进右派 对象外扩型 138 7 17 10 97 对象内聚型 192 5 20 27 131 9 对象均衡型 3 2 1 对象比平均值 1.62 1.25 1.84 0.97 1.70 1.75 频率外扩型 132 14 13 92 6 频率内聚型 200 22 24 11 频率均衡型 频率比平均值 1.77 0.87 1.03 0.85 2.15 0.90
微博舆论生态 内分布类型:指微博内容的报道类型分布情况; 媒体系别的内容生产属于集群型分布,内容主要集中在政法、国际类新闻报道。而绝大多数媒体系别能够从政法类新闻报道中获取高转评。 媒体系别 政法均值 社会均值 国际均值 经济均值 文娱均值 财经系 62.05 12.95 28.1 24.35 15.9 10.81425 央视系 30.3 11.6 57.75 13.85 11.95 12.55318 人民系 78.3 21.55 56 13.2 18.176 17.18099 南方系 124.95 34.2 45.1 45.95 27.47059 22.72826 新华系 144.9 25.35 115.2 26.9 38.85 35.51913
微博舆论生态 媒体系别的种内关系符合逻辑斯蒂方程的增长规律; 由于话语空间、信息资源、受众关注的有限性,账号增长会制约媒体转评总量的增长; 密度制约使得媒体系别的成长经历负竞争、争夺竞争、分摊竞争的阶段。
Annualized Sharpe (Rf=3%) 模型1.0表现 择时策略 Annualized Return 19% Annualized Std Dev Annualized Sharpe (Rf=3%) 0.80 累计收益率 86% 最大净值回撤 10% 持仓胜率 57% 空仓胜率 平均持有期 作多 58日 作空 144日 最大持有期 84日 311日 最小持有期 32日 71日
普通投资者情绪指标择时模型2.0 通过数学方法寻找情绪的拐点,高位拐点确认后对应卖出信号,低位拐确认后对应买入信号。
概念板块事件驱动套利模型 “石墨烯”概念板块下的各事件信号
清博指数
评价模型 WCI:微信传播指数v12.0 BCI:微博传播指数v9.0 TGI:头条传播指数v1.0 OCI:网红指数v2.0 BVI:品牌价值指数1.0 WII-VR:VR网络影响力评估指数1.0
评价模型+
新媒体指数管理中心: 优质用户 部门、企业 媒体 中宣部、网信办(年底的先进表彰名单来自本系统,作为备选之一)、中央政法委宣传中心、教育部(200家高校的新媒体评估使用本系统)、国资委(央企每月排名使用本系统)、共青团中央、铁路总公司、万达集团、海尔集团。 1万多优质用户 每日递增500多 媒体 新华社、央视(内部评测使用本系统)、人民网、新华网、腾讯网、新浪网(27个地方站进行微博统计使用本系统)、大众网、大河报、华商报、长江日报、解放军报、最后一公里等。
开放平台及API接口 http://open.gsdata.cn/
清博舆情
舆情统计: 媒体分布: 预警信息: 舆情走势: 最新舆情: 热点词云: 分时间段统计微信、微博、网页、客户端的发文数量总和 舆情统计结果对应的饼状图表 预警信息: 预警四类媒体的负面信息 舆情走势: 媒体每日发文总量趋势图 最新舆情: 实时抓取更新数据,可以删除单条舆情 热点词云: 统计高频词
3.5 专题多维度分析 对监测专题内容进行内容分析、传播分析、微信分析、微博分析
性能扩展 1、早期上线版本更倾向于体现能力开发与模块实现。 2、考虑随用户数据量增加,系统各环节的扩容机制预案,支持平行扩展。
数据资源 微信公众号:1400万+ 微博账号数:1.5亿+ 客户端下载:93万+ 资讯App全文:36 重要资讯网站:每天100个GB
性能扩展 1、早期上线版本更倾向于体现能力开发与模块实现。 2、考虑随用户数据量增加,系统各环节的扩容机制预案,支持平行扩展。