从共享交易到数据资源运营 ---数据堂数据共享服务实践

Slides:



Advertisements
Similar presentations
第 3 章 测绘项目和测绘市场管理制度 3.1 测绘项目管理制度 测绘项目技术管理主要从技术立法、技术基础设施 建立、技术业务及质量保障、技术创新及新技术、先进 设备使用、推广等几方面加以规范和管理。对此,测绘 法律法规对建立测绘基准和测绘系统、制定测绘技术规 范和标准、坐标系统选择、测绘质量监督管理等内容作.
Advertisements

環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
廿一世紀的輪廓 朝陽科技大學 嚴國慶.
壹 展会营销方式 在休闲娱乐产业中的分析. 壹 展会营销方式 在休闲娱乐产业中的分析 对于行业、企业、产品的作用 会展营销 的作用 会展营销 集行业资源要素、灵活多变的活动手段、面对面的展览展示等优点,已经发展成为所有行业开展营销工作的首选手段。 1、市场调研功能 5、注意力经济效应 2、产品创新功能.
虹膜识别健康养老服务智能系统项目.
行政执法人员 综合法律知识培训 二OO六年八月.
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
職校、五專群科簡介.
第2框 文化创新的途径 考点:理解文化创新的重要途径.
跟著媽祖遶境去-白沙屯媽祖文化 國立聯合大學&育達商業科技大學助理教授/古鎮清
因为我们年轻所以我们执着 因为我们是戴中教师所以我们更加努力
第41课 公民的财产权 .
安全自护我能行 ——八年(1)班主题班会.
江苏省工程造价管理协会 工作报告 2015年4月21日 扬州.
麵包的秘密 作者:奧亨利.
企业实地核查办法解析 机械产品审查部 李燕霞
臺南市104學年度 國民中小學新進教師研習課程 廉政宣導與案例研習 臺南市政府教育局政風室 科員 黃彥雄.
2014年上半年全市 女职工工作总结 2014年8月 扬州市总工会女职工委员会.
技職教育之人才培育 -以育達商業技術學院為例 王育文 戴美華 育達商業技術學院 吉林大學企業管理系 副校長 博士生
101年8月份 嘉義市道路交通安全聯席會報 酒駕行為與肇事現況分析 主講人:內政部警政署交通組科長張夢麟 1.
每周物流资讯 苏州得尔达国际物流有限公司 第四十三期.
高校邦在线学习平台 学生学习手册 北京高校邦科技有限公司.
龙海公寓· 多城一家O2O项目 商业计划书 2015年7月.
第2节 分析综合.
临沂市华泰工艺美术有限公司 人事管理制度培训.
僑務委員會法規委員會 專門委員兼執行秘書徐佑伶
第一章 考点精讲 第1课时 湖南师大附中 高二地理备课组.
工程测量技术专业教学资源库项目 建设方案汇报 汇报人:陈建民 项目主持单位:北京工业职业技术学院 昆明冶金高等专科学校 重庆工程职业技术学院
法務部行政執行署彰化分署 行政執行官李垂章
扬州大学建筑科学与工程学院 青年共产主义学校 第十期暨主要学生干部培训班 二OO八年十二月.
人教版义务教育课程标准实验教科书 《地 理》 (七年级上册) 简 介
班主任素质提升要走自主发展之路 广 东 技 术 师 范 学 院 外国语学院 英语(翻译)12级1班 李秀云.
? 新中国这时进入 社会主义社会了吗? 开国大典.
课堂回顾 1、继承与发展的关系及处理 关系:继承是发展的必要前提,发展是继承的必然要求。继承与发展,是同一个过程的两个方面。文化在继承的基础上发展,在发展的过程中继承。 文化在继承中发展 处理:把握好文化继承与发展的关系,批判地继承传统文化,不断推陈出新,革故鼎新,我们就能够作出正确的文化选择,成为自觉地文化传承者和享用者。
第16课时 放飞理想 立志成才 考 纲 内 容 要 点 探 究 考 点 解 读.
主办单位:西城区归国华侨联合会 西城区金融服务办公室
引领民族复兴的战略布局 —— 关于“四个全面”若干问题之解读 福建省委党校 福建行政学院 曹敏华教授.
法務部行政執行署彰化分署 行政執行官李垂章
服务热线 : 腾格里沙漠•沙坡头行程 服务热线 :
优卡会介绍资料 ——健 康 数 据 管 理 专 家—— ——爱上优卡会,生活好品味
农作物病虫害图解 阜宁县农业干部学校 二OO九年四月.
克拉玛依职业技术学院klmyzyjsxy
广东地区海关 区域通关一体化改革 对外宣讲会
103學年度第1階段 志願選填試探後輔導作為 成效檢討與精進建議
報告人: 財政部採購稽核小組稽核委員 台灣菸酒股份有限公司王自來
活动主题:佛山智造 中国骄傲 随着互联网、云计算、大数据以及移动互联网的快速发展,技术不仅仅是一种工具,正加速重构着品牌的新格局。
时代发展趋势: 科学人文交融 华中科技大学 杨叔子 2010年2月修改.
世界的物质性 人类社会也是物质的 自然界是物质的 从古猿到人的进化中脑量的变化
科學科 污染 空氣 成因 的 : 題目 及 減少空氣污染的方法 陳玉玲 (4) 姓名 : 去到目錄.
四川省卫生监督移动 执法终端介绍 发言人:陈成身 四川省卫生执法监督总队.
獎補助經預計支用報告 105年.
大拇指游戏的类似经历 1、作息时间? 2、 考试成绩? 板书,表情典型性 3、心情?.
第二单元 文化传承与创新.
政治常识 第一课 我国的国家制度(上) 第4课时 政体及其与国体的关系.
一种营销模式的转型,一种全新的金融房贷模式
华东理工大学 关于新校园卡功能启用的相关说明 2018年09月07日.
金門農工課程核心小組會議 ★各科多元選修彙整範例 ★彈性學習時間之規劃 ★選課機制 報告人: 董炤靈 107年10月23日.
電子系學生核心能力(四技航電組) 本系畢業生應具備的核心能力如下: 1.具有整合與組織電子理論和專業知識來分析、表達問 題之能力。
102學年度下學期 班親會 五年仁班 楊曉逸老師.
第二階段「校園徒步區建置」 執行成果報告.
太阳和月球 第三章 第三节.
从“聚焦课堂”到  “关注教育教学全过程” 浙江省教育厅教研室 张 丰 二OO八年十二月.
臺北市私立大同高中105年 地震疏散演練 上午9時21分, 實施防災演練, 9月13日0730實施預演.
明湖國小 文書講習 時間: 地點:總務處.
為民服務白皮書 台灣電力公司彰化區營業處  彰化區營業處 為民服務白皮書 誠信 關懷 服務 成長 1.
第三次全国农作物种质资源普查与收集行动 普查与征集技术方案 李立会 中国农业科学院作物科学研究所.
实验课程学习手册.
云控APP说明书 适用于云控平台配置.
云控APP说明书 适用于云控平台配置.
Presentation transcript:

从共享交易到数据资源运营 ---数据堂数据共享服务实践 从共享交易到数据资源运营 ---数据堂数据共享服务实践 肖永红 联合创始人 数据堂(北京)科技股份有限公司

目录 1 大数据时代下思维变革和产业背景 2 数据共享交易-V1.0 3 数据资源运营-V2.0 4 结语

数据的资产/价值属性凸显 数据不同于一般物质性资源,它的价值不会随着使用次数增多而减少,数据 可以被不断的整合和处理,不断的被发现新的价值。 数据之和的价值 > 数据价值之和 数据最大价值不由数据原始拥有者决定

数据成为生产要素

数据采集 -> 数据公开 -> 数据开放 -> 数据互联 开放思维 数据采集 -> 数据公开 -> 数据开放 -> 数据互联

服务思维 数据即服务-DaaS 与数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗等,然后再将数据提供给不同的系统和用户,而无需再考虑这些数据来自于哪些数据源。

众包思维 让用户贡献数据

小结 数据的资产属性凸显 交易 数据之和的价值 > 数据价值之和 数据最大价值不由数据原始拥有者决定 融汇 众包成为大数据产业核心模式之一,贯穿在数据采集、开发、服务各环节 交易 融汇 流通

以数据资产为核心的商业模式成为主流

商业模式一 四维图新 (一)数据制胜,租赁数据获益

商业模式二 阿里小贷 (二)数据驱动,互联网金融风生水起

Computational Science Data-Intensive Science 产业变革及趋势:科研领域 科学研究第四范式 Thousand years ago Experimental Science Last few hundred years Theoretical Science Last few decades Computational Science Today Data-Intensive Science

“有些部门把一些数据当成自己的,放那里既不使用,也不提供给研究者。大数据需要共享,数据开放,平台利用,这是我国大数据研究的软肋和需要解决的大问题。” ---李国杰

科技部国家科技基础条件平台中心,国家科学数据共享工程 国家层面科学数据开放与共享 … 科技部国家科技基础条件平台中心,国家科学数据共享工程

V1.0诞生-- 市场化的科研数据共享实践 数据堂:国内专业的科研数据共享平台,致力于为国内外高等院校、科研机构、研发企业及相关科研人员提供基础数据支持。

获取数据方式 获取数据堂数据的方式 Dataset 小数据 中数据 大数据 直接下载 在线支付,介质邮寄 在线计算

提供在线计算服务 客 户 科研人员 科研团队 科研机构 Research Dataset

为用户开辟数据共享专区 众多高校、科研单位入驻,开设会员专区,共享数据

但是,叫好不叫座 数据开放共享

然而…... 数据共享平台的数据质量难以把控 数据交易量不足以支撑平台运营 用户上传与共享数据的动力不足 用户上传的数据版权说不清楚 用户大多时候需要的不是“数据”

转折-从科研数据共享到数据处理服务 各种人工智能技术都需要大量数据来做底层模型及算法训练. 02 03 04 05 06 07 08 01 典型人工智能技术公司 人工智能技术所涉及的领域包括机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、智能搜索、定理证明、博弈、自动程序设计、智能控制、机器人学、语言和图像理解和遗传编程等。

以百度语音助手、讯飞灵犀、微信语音识别为例 以语音识别训练数据为例 语音识别数据 各种因素组合下来,需要的数据量非常庞大 以百度语音助手、讯飞灵犀、微信语音识别为例 数据相当于计算机的老师,优质的数据能让计算机更加聪明!!! 不同语言 不同设备 不同环境 中文 英语 法语 德语 日语 电脑 手机 智能电视 导航设备 … 普通话 汉族方言 少数民族 三星 联想 华为 室内(安静) 室内(嘈杂) 街道 车载 贵阳话 上海话 河南话 四川话 中兴

语音数据采集与处理 采集:不同语言的语音库建设;不同发音人的语音库建设:不同场景下的语音库录制:不同内容的语音库建设: 标注:语音文本内容标注、发音人性别标注、发音人口音标注、语音信号标注 应用:语音导航、语音助手、语音搜索、语音合成 科研相关:语音处理、信息检索

图像视频数据采集处理 采集:基于互联网络的定向采集、特定设备及特定情境下的定制采集;采集内容包括人脸图片、文字图片、车辆图片、行人视频、车辆视频等多种类型; 标注:全方位的图像标注,包括人脸识别标注、人体动作标注、车牌识别标注等;标注的图片数量可达到数十万到百万级别。 应用:人脸识别、车牌识别、视频安全检测、智能交互 科研相关:图像处理、视频处理、模式识别

文本数据采集处理 采集:数千亿字规模的文本语料:涵盖新闻、微博、电子商务等类别 文本语料的深加工:句法树库、情感语料、事件标注语料、词义消歧语料、机器翻译语料等 词典建设:通用词典、语义相关词典、相似词典、情感词典、各领域词典等 应用:舆情监测、机器翻译、个性化推荐、自动问答 科研相关:自然语言处理、社会计算、机器学习、数据挖掘

融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。 V2.0 数据资源运营 “数据银行”模式 融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。 数据拥有方 DATA 数据堂 数据需求方 数据 获取 处理 服务

数据银行:数据资源与获取方式 基础数据 IT智能化 商家+商价 医疗健康 征信 智能交通 众包采集 线下大数据(40万众客) 行业大数据 有关位置、人、企业等基本 数据,以便在空间、时间以 及身份等维度上关联各个领 域数据: 全国公民身份证信息 全国超精细格网人口数据 企业基本信息数据(工商) 全国银联刷卡记录数据库 地图位置数据 全国天气、空气质量数据 IT智能化 移动终端、车载终端、 家 电、物联网的智能化需要 数据+智能化技术: 图像识别:图片导购、 安全监控、地图增值、 图像检索; 语音识别:语音助手、 语音导航、家电控制; 语义理解:人机交互、 舆情监控、客服中心; 商家+商价 移动互联网、传统互联 网业务O2O化,需要 线下数据在物理世界落 地: 家:家政、家装、亲 子、教育、运动、健 身、娱乐。 衣:商场、店铺 食:餐饮、美食 住:酒店、宾馆 行:车/船/飞机订票 医疗健康 医疗健康个性化、移动 化、智能化需要整合医 院、医生、医疗等数据: 医院、医生、药企、 医疗器械企业基本 信息采集与整合; 基于病历、体检等 基本医疗信息的个 人健康追踪; 基于个人健康的个 性化医疗保险。 征信 互联网金融服务需要海 量、多维的消费者和企 业信用数据: 个人身份信息验证 个人消费记录、电商 交易记录 个人交通出行数据 企业股东、高管信息 企业正负面信息、进 出口信息 智能交通 交通涉及整个国计民生, 其智能化、数据化、互 联化需要数据支持: 实时交通路况 车载设备及车联网 停车、违章、公交、 出租车 基于视频的交通安全 陆运、海运、空运 独家 众包采集 线下大数据(40万众客) 行业大数据 采购&代理 线上(互联网)大数据 数据爬虫 政府大数据 合作

人是移动的数据传感器! 数据获取途径 – 众包平台 案例 数据堂众包平台 – 线下大数据 人脸图像 购物小票 语音录音 40万全球(以中国为主)实名兼职人员(众客); 采集其它企业无法获取的独家线下数据; 采集案例:购物小票,商家店铺,脚尺寸,语音等; 为传统产业O2O化提供重要数据支撑。 人是移动的数据传感器!

数据获取途径 BD合作 – 行业大数据 政府合作 – 政府大数据 网络爬虫– 互联网大数据 中央网信办 精准的数据爬取、抽取、更新、整合能力; 与线下数据映射,形成线上和线下数据整合; 网络爬虫– 互联网大数据 深度参与中央网信办“国家公共信息资源开 放与社会化服务”的方案及服务体系制定; 此方案第一批将试点教育、公安、民政、人 力资源和社会保障、国土资源、住房和城乡 建设、交通运输、卫生和计划生育、工商行 政管理、食品药品监督管理等领域数据开放 与服务。 政府合作 – 政府大数据 中央网信办 已有近100家企事业合作伙伴; 采购或代理合作伙伴的数据;

数据处理技术:清洗、结构化、关联 数据获取 数据清洗 非结构化数据处理 数据关联 数据服务 脱敏 去噪 去重 … 图像识别 语音识别 语义理解 … 数据关联 身份关联 位置关联 时间关联 … 数据服务 定制 销售 订阅 应用 线下大数据 行业大数据 线上大数据 政府大数据

非结构化数据处理 – 人脸图片数据 数据堂拥有人脸识别的关键技术,其是图像处理的基本技术。 青年、男、白种人、中立表情 支持不同粒度的人脸特征识别 识别人脸图片的人脸区域、表情、性别、年龄、人种、脸部关键点等6种特征,识别率90%以上 支持不同复杂场景 支持不同姿态(平、仰、俯、左、右、前)、不同光线(亮、中、暗)下的人脸识别 基于大量人脸图片数据的建模算法 基于千万级人脸图片数据的深度学习建模 青年、男、白种人、中立表情 老人 黄种 女 微笑 中年 黑种 女 中立 青年 白种 男 中立 老人 黑种 女 中立 青年 白种 女 微笑 老人 白种 男 中立 青年 黑种 男 微笑 青年 白种 女 中立

凯凯2.4AT在冷车启动时,仪表盘上会有吱吱的声音,声音不大,但很烦人,开车的人会觉得郁闷。 非结构化数据处理 – 语音/文本数据 数据堂拥有从语音中识别语音内容的技术,和从自然语言文字中理解语义的技术。 语音识别 支持多种语言识别 支持普通话、英文的识别,识别率85%以上。 支持不同场景的语音识别 支持安静、室内噪音、室外噪音和车载噪音等4种典型场景下的语音识别 基于大量数据的建模算法 基于5万小时语音数据及T级文本数据,利用深度建模算法的分布式建模 明天天气非常好,我们去爬山如何? 语义理解 凯凯2.4AT在冷车启动时,仪表盘上会有吱吱的声音,声音不大,但很烦人,开车的人会觉得郁闷。 支持多种语言的语义分析 支持中文、英文、日文的文本语义分析,识别率85%以上 三层语义理解模型 自动分析句法结构、用户情感、查询意图 可处理各类书面语和口语 可处理新闻、短信、微博、微信、评论、论坛等各种形式的文本 品牌:丰田 车型:凯美瑞2.4AT 别称:凯凯,小凯 评价对象:仪表盘 评价内容:有吱吱的声音 倾向性:贬义 评价类别:噪音

数据处理与服务平台(Data As A Service) 数据服务平台 客户:APP服务商 语音助手 餐饮APP 吃喝玩乐 健康APP 汽车APP 客户:互联网企业、科技企业、互联网金融 定制 数据包 接口 投资 数据处理与服务平台(Data As A Service) 结构化处理 标准化 数据清洗 数据关联

数据也电商,交易弱化,变为需求和流量入口 www.datamall.com

服务案例:人口数据API 数据源:高精度网格化人口数据(反映人口静态情况),出租车GPS数据、公交车刷卡数据(反映人口动态流 动情况)。 产品:精准分析常住人口和流动人口的年龄特点、密度、活动规律、迁移路线,挖掘指定地点的人口规律数据 和用户属性(老家、住所、单位、常去场所、主要行动轨迹、人口消费能力),供商家店铺选址、政府公共资 源配置(地铁、公交、道路规划、教育、医疗)、商家营销广告投放。 商家店铺选址 高精度网格化人口数据 出租车GPS数据 政府公共资源配置 公交车刷卡数据 商家营销广告投放

服务案例:高速公路数据查询API …… …… 保险公司 保险产品设计和个性化保险费率 大车司机高速路行驶数据 行驶里程数 提供个性化车险费率 行驶特定路径排行榜 高速行驶间隔频率 是否办理ETC业务 提供个性化车险费率 高速险的风险评估 高速险的目标人群 精准高端车人群保险售卖 调用 API …… 付费 ……

典型客户

V1.0-V2.0 从共享交易到运营服务 从提供小麦到提供面粉

谢 谢!