从共享交易到数据资源运营 ---数据堂数据共享服务实践 从共享交易到数据资源运营 ---数据堂数据共享服务实践 肖永红 联合创始人 数据堂(北京)科技股份有限公司
目录 1 大数据时代下思维变革和产业背景 2 数据共享交易-V1.0 3 数据资源运营-V2.0 4 结语
数据的资产/价值属性凸显 数据不同于一般物质性资源,它的价值不会随着使用次数增多而减少,数据 可以被不断的整合和处理,不断的被发现新的价值。 数据之和的价值 > 数据价值之和 数据最大价值不由数据原始拥有者决定
数据成为生产要素
数据采集 -> 数据公开 -> 数据开放 -> 数据互联 开放思维 数据采集 -> 数据公开 -> 数据开放 -> 数据互联
服务思维 数据即服务-DaaS 与数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗等,然后再将数据提供给不同的系统和用户,而无需再考虑这些数据来自于哪些数据源。
众包思维 让用户贡献数据
小结 数据的资产属性凸显 交易 数据之和的价值 > 数据价值之和 数据最大价值不由数据原始拥有者决定 融汇 众包成为大数据产业核心模式之一,贯穿在数据采集、开发、服务各环节 交易 融汇 流通
以数据资产为核心的商业模式成为主流
商业模式一 四维图新 (一)数据制胜,租赁数据获益
商业模式二 阿里小贷 (二)数据驱动,互联网金融风生水起
Computational Science Data-Intensive Science 产业变革及趋势:科研领域 科学研究第四范式 Thousand years ago Experimental Science Last few hundred years Theoretical Science Last few decades Computational Science Today Data-Intensive Science
“有些部门把一些数据当成自己的,放那里既不使用,也不提供给研究者。大数据需要共享,数据开放,平台利用,这是我国大数据研究的软肋和需要解决的大问题。” ---李国杰
科技部国家科技基础条件平台中心,国家科学数据共享工程 国家层面科学数据开放与共享 … 科技部国家科技基础条件平台中心,国家科学数据共享工程
V1.0诞生-- 市场化的科研数据共享实践 数据堂:国内专业的科研数据共享平台,致力于为国内外高等院校、科研机构、研发企业及相关科研人员提供基础数据支持。
获取数据方式 获取数据堂数据的方式 Dataset 小数据 中数据 大数据 直接下载 在线支付,介质邮寄 在线计算
提供在线计算服务 客 户 科研人员 科研团队 科研机构 Research Dataset
为用户开辟数据共享专区 众多高校、科研单位入驻,开设会员专区,共享数据
但是,叫好不叫座 数据开放共享
然而…... 数据共享平台的数据质量难以把控 数据交易量不足以支撑平台运营 用户上传与共享数据的动力不足 用户上传的数据版权说不清楚 用户大多时候需要的不是“数据”
转折-从科研数据共享到数据处理服务 各种人工智能技术都需要大量数据来做底层模型及算法训练. 02 03 04 05 06 07 08 01 典型人工智能技术公司 人工智能技术所涉及的领域包括机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、智能搜索、定理证明、博弈、自动程序设计、智能控制、机器人学、语言和图像理解和遗传编程等。
以百度语音助手、讯飞灵犀、微信语音识别为例 以语音识别训练数据为例 语音识别数据 各种因素组合下来,需要的数据量非常庞大 以百度语音助手、讯飞灵犀、微信语音识别为例 数据相当于计算机的老师,优质的数据能让计算机更加聪明!!! 不同语言 不同设备 不同环境 中文 英语 法语 德语 日语 电脑 手机 智能电视 导航设备 … 普通话 汉族方言 少数民族 三星 联想 华为 室内(安静) 室内(嘈杂) 街道 车载 贵阳话 上海话 河南话 四川话 中兴
语音数据采集与处理 采集:不同语言的语音库建设;不同发音人的语音库建设:不同场景下的语音库录制:不同内容的语音库建设: 标注:语音文本内容标注、发音人性别标注、发音人口音标注、语音信号标注 应用:语音导航、语音助手、语音搜索、语音合成 科研相关:语音处理、信息检索
图像视频数据采集处理 采集:基于互联网络的定向采集、特定设备及特定情境下的定制采集;采集内容包括人脸图片、文字图片、车辆图片、行人视频、车辆视频等多种类型; 标注:全方位的图像标注,包括人脸识别标注、人体动作标注、车牌识别标注等;标注的图片数量可达到数十万到百万级别。 应用:人脸识别、车牌识别、视频安全检测、智能交互 科研相关:图像处理、视频处理、模式识别
文本数据采集处理 采集:数千亿字规模的文本语料:涵盖新闻、微博、电子商务等类别 文本语料的深加工:句法树库、情感语料、事件标注语料、词义消歧语料、机器翻译语料等 词典建设:通用词典、语义相关词典、相似词典、情感词典、各领域词典等 应用:舆情监测、机器翻译、个性化推荐、自动问答 科研相关:自然语言处理、社会计算、机器学习、数据挖掘
融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。 V2.0 数据资源运营 “数据银行”模式 融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。 数据拥有方 DATA 数据堂 数据需求方 数据 获取 处理 服务
数据银行:数据资源与获取方式 基础数据 IT智能化 商家+商价 医疗健康 征信 智能交通 众包采集 线下大数据(40万众客) 行业大数据 有关位置、人、企业等基本 数据,以便在空间、时间以 及身份等维度上关联各个领 域数据: 全国公民身份证信息 全国超精细格网人口数据 企业基本信息数据(工商) 全国银联刷卡记录数据库 地图位置数据 全国天气、空气质量数据 IT智能化 移动终端、车载终端、 家 电、物联网的智能化需要 数据+智能化技术: 图像识别:图片导购、 安全监控、地图增值、 图像检索; 语音识别:语音助手、 语音导航、家电控制; 语义理解:人机交互、 舆情监控、客服中心; 商家+商价 移动互联网、传统互联 网业务O2O化,需要 线下数据在物理世界落 地: 家:家政、家装、亲 子、教育、运动、健 身、娱乐。 衣:商场、店铺 食:餐饮、美食 住:酒店、宾馆 行:车/船/飞机订票 医疗健康 医疗健康个性化、移动 化、智能化需要整合医 院、医生、医疗等数据: 医院、医生、药企、 医疗器械企业基本 信息采集与整合; 基于病历、体检等 基本医疗信息的个 人健康追踪; 基于个人健康的个 性化医疗保险。 征信 互联网金融服务需要海 量、多维的消费者和企 业信用数据: 个人身份信息验证 个人消费记录、电商 交易记录 个人交通出行数据 企业股东、高管信息 企业正负面信息、进 出口信息 智能交通 交通涉及整个国计民生, 其智能化、数据化、互 联化需要数据支持: 实时交通路况 车载设备及车联网 停车、违章、公交、 出租车 基于视频的交通安全 陆运、海运、空运 独家 众包采集 线下大数据(40万众客) 行业大数据 采购&代理 线上(互联网)大数据 数据爬虫 政府大数据 合作
人是移动的数据传感器! 数据获取途径 – 众包平台 案例 数据堂众包平台 – 线下大数据 人脸图像 购物小票 语音录音 40万全球(以中国为主)实名兼职人员(众客); 采集其它企业无法获取的独家线下数据; 采集案例:购物小票,商家店铺,脚尺寸,语音等; 为传统产业O2O化提供重要数据支撑。 人是移动的数据传感器!
数据获取途径 BD合作 – 行业大数据 政府合作 – 政府大数据 网络爬虫– 互联网大数据 中央网信办 精准的数据爬取、抽取、更新、整合能力; 与线下数据映射,形成线上和线下数据整合; 网络爬虫– 互联网大数据 深度参与中央网信办“国家公共信息资源开 放与社会化服务”的方案及服务体系制定; 此方案第一批将试点教育、公安、民政、人 力资源和社会保障、国土资源、住房和城乡 建设、交通运输、卫生和计划生育、工商行 政管理、食品药品监督管理等领域数据开放 与服务。 政府合作 – 政府大数据 中央网信办 已有近100家企事业合作伙伴; 采购或代理合作伙伴的数据;
数据处理技术:清洗、结构化、关联 数据获取 数据清洗 非结构化数据处理 数据关联 数据服务 脱敏 去噪 去重 … 图像识别 语音识别 语义理解 … 数据关联 身份关联 位置关联 时间关联 … 数据服务 定制 销售 订阅 应用 线下大数据 行业大数据 线上大数据 政府大数据
非结构化数据处理 – 人脸图片数据 数据堂拥有人脸识别的关键技术,其是图像处理的基本技术。 青年、男、白种人、中立表情 支持不同粒度的人脸特征识别 识别人脸图片的人脸区域、表情、性别、年龄、人种、脸部关键点等6种特征,识别率90%以上 支持不同复杂场景 支持不同姿态(平、仰、俯、左、右、前)、不同光线(亮、中、暗)下的人脸识别 基于大量人脸图片数据的建模算法 基于千万级人脸图片数据的深度学习建模 青年、男、白种人、中立表情 老人 黄种 女 微笑 中年 黑种 女 中立 青年 白种 男 中立 老人 黑种 女 中立 青年 白种 女 微笑 老人 白种 男 中立 青年 黑种 男 微笑 青年 白种 女 中立
凯凯2.4AT在冷车启动时,仪表盘上会有吱吱的声音,声音不大,但很烦人,开车的人会觉得郁闷。 非结构化数据处理 – 语音/文本数据 数据堂拥有从语音中识别语音内容的技术,和从自然语言文字中理解语义的技术。 语音识别 支持多种语言识别 支持普通话、英文的识别,识别率85%以上。 支持不同场景的语音识别 支持安静、室内噪音、室外噪音和车载噪音等4种典型场景下的语音识别 基于大量数据的建模算法 基于5万小时语音数据及T级文本数据,利用深度建模算法的分布式建模 明天天气非常好,我们去爬山如何? 语义理解 凯凯2.4AT在冷车启动时,仪表盘上会有吱吱的声音,声音不大,但很烦人,开车的人会觉得郁闷。 支持多种语言的语义分析 支持中文、英文、日文的文本语义分析,识别率85%以上 三层语义理解模型 自动分析句法结构、用户情感、查询意图 可处理各类书面语和口语 可处理新闻、短信、微博、微信、评论、论坛等各种形式的文本 品牌:丰田 车型:凯美瑞2.4AT 别称:凯凯,小凯 评价对象:仪表盘 评价内容:有吱吱的声音 倾向性:贬义 评价类别:噪音
数据处理与服务平台(Data As A Service) 数据服务平台 客户:APP服务商 语音助手 餐饮APP 吃喝玩乐 健康APP 汽车APP 客户:互联网企业、科技企业、互联网金融 定制 数据包 接口 投资 数据处理与服务平台(Data As A Service) 结构化处理 标准化 数据清洗 数据关联
数据也电商,交易弱化,变为需求和流量入口 www.datamall.com
服务案例:人口数据API 数据源:高精度网格化人口数据(反映人口静态情况),出租车GPS数据、公交车刷卡数据(反映人口动态流 动情况)。 产品:精准分析常住人口和流动人口的年龄特点、密度、活动规律、迁移路线,挖掘指定地点的人口规律数据 和用户属性(老家、住所、单位、常去场所、主要行动轨迹、人口消费能力),供商家店铺选址、政府公共资 源配置(地铁、公交、道路规划、教育、医疗)、商家营销广告投放。 商家店铺选址 高精度网格化人口数据 出租车GPS数据 政府公共资源配置 公交车刷卡数据 商家营销广告投放
服务案例:高速公路数据查询API …… …… 保险公司 保险产品设计和个性化保险费率 大车司机高速路行驶数据 行驶里程数 提供个性化车险费率 行驶特定路径排行榜 高速行驶间隔频率 是否办理ETC业务 提供个性化车险费率 高速险的风险评估 高速险的目标人群 精准高端车人群保险售卖 调用 API …… 付费 ……
典型客户
V1.0-V2.0 从共享交易到运营服务 从提供小麦到提供面粉
谢 谢!