Presentation is loading. Please wait.

Presentation is loading. Please wait.

从共享交易到数据资源运营 ---数据堂数据共享服务实践

Similar presentations


Presentation on theme: "从共享交易到数据资源运营 ---数据堂数据共享服务实践"— Presentation transcript:

1 从共享交易到数据资源运营 ---数据堂数据共享服务实践
从共享交易到数据资源运营 ---数据堂数据共享服务实践 肖永红 联合创始人 数据堂(北京)科技股份有限公司

2 目录 1 大数据时代下思维变革和产业背景 2 数据共享交易-V1.0 3 数据资源运营-V2.0 4 结语

3 数据的资产/价值属性凸显 数据不同于一般物质性资源,它的价值不会随着使用次数增多而减少,数据 可以被不断的整合和处理,不断的被发现新的价值。
数据之和的价值 > 数据价值之和 数据最大价值不由数据原始拥有者决定

4 数据成为生产要素

5 数据采集 -> 数据公开 -> 数据开放 -> 数据互联
开放思维 数据采集 -> 数据公开 -> 数据开放 -> 数据互联

6 服务思维 数据即服务-DaaS 与数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗等,然后再将数据提供给不同的系统和用户,而无需再考虑这些数据来自于哪些数据源。

7 众包思维 让用户贡献数据

8 小结 数据的资产属性凸显 交易 数据之和的价值 > 数据价值之和 数据最大价值不由数据原始拥有者决定 融汇
众包成为大数据产业核心模式之一,贯穿在数据采集、开发、服务各环节 交易 融汇 流通

9 以数据资产为核心的商业模式成为主流

10 商业模式一 四维图新 (一)数据制胜,租赁数据获益

11 商业模式二 阿里小贷 (二)数据驱动,互联网金融风生水起

12 Computational Science Data-Intensive Science
产业变革及趋势:科研领域 科学研究第四范式 Thousand years ago Experimental Science Last few hundred years Theoretical Science Last few decades Computational Science Today Data-Intensive Science

13 “有些部门把一些数据当成自己的,放那里既不使用,也不提供给研究者。大数据需要共享,数据开放,平台利用,这是我国大数据研究的软肋和需要解决的大问题。”
---李国杰

14 科技部国家科技基础条件平台中心,国家科学数据共享工程
国家层面科学数据开放与共享 科技部国家科技基础条件平台中心,国家科学数据共享工程

15 V1.0诞生-- 市场化的科研数据共享实践 数据堂:国内专业的科研数据共享平台,致力于为国内外高等院校、科研机构、研发企业及相关科研人员提供基础数据支持。

16 获取数据方式 获取数据堂数据的方式 Dataset 小数据 中数据 大数据 直接下载 在线支付,介质邮寄 在线计算

17 提供在线计算服务 科研人员 科研团队 科研机构 Research Dataset

18 为用户开辟数据共享专区 众多高校、科研单位入驻,开设会员专区,共享数据

19

20

21 但是,叫好不叫座 数据开放共享

22 然而…... 数据共享平台的数据质量难以把控 数据交易量不足以支撑平台运营 用户上传与共享数据的动力不足 用户上传的数据版权说不清楚
用户大多时候需要的不是“数据”

23 转折-从科研数据共享到数据处理服务 各种人工智能技术都需要大量数据来做底层模型及算法训练.
02 03 04 05 06 07 08 01 典型人工智能技术公司 人工智能技术所涉及的领域包括机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、智能搜索、定理证明、博弈、自动程序设计、智能控制、机器人学、语言和图像理解和遗传编程等。

24 以百度语音助手、讯飞灵犀、微信语音识别为例
以语音识别训练数据为例 语音识别数据 各种因素组合下来,需要的数据量非常庞大 以百度语音助手、讯飞灵犀、微信语音识别为例 数据相当于计算机的老师,优质的数据能让计算机更加聪明!!! 不同语言 不同设备 不同环境 中文 英语 法语 德语 日语 电脑 手机 智能电视 导航设备 普通话 汉族方言 少数民族 三星 联想 华为 室内(安静) 室内(嘈杂) 街道 车载 贵阳话 上海话 河南话 四川话 中兴

25 语音数据采集与处理 采集:不同语言的语音库建设;不同发音人的语音库建设:不同场景下的语音库录制:不同内容的语音库建设:
标注:语音文本内容标注、发音人性别标注、发音人口音标注、语音信号标注 应用:语音导航、语音助手、语音搜索、语音合成 科研相关:语音处理、信息检索

26 图像视频数据采集处理 采集:基于互联网络的定向采集、特定设备及特定情境下的定制采集;采集内容包括人脸图片、文字图片、车辆图片、行人视频、车辆视频等多种类型; 标注:全方位的图像标注,包括人脸识别标注、人体动作标注、车牌识别标注等;标注的图片数量可达到数十万到百万级别。 应用:人脸识别、车牌识别、视频安全检测、智能交互 科研相关:图像处理、视频处理、模式识别

27 文本数据采集处理 采集:数千亿字规模的文本语料:涵盖新闻、微博、电子商务等类别
文本语料的深加工:句法树库、情感语料、事件标注语料、词义消歧语料、机器翻译语料等 词典建设:通用词典、语义相关词典、相似词典、情感词典、各领域词典等 应用:舆情监测、机器翻译、个性化推荐、自动问答 科研相关:自然语言处理、社会计算、机器学习、数据挖掘

28 融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。
V2.0 数据资源运营 “数据银行”模式 融合和盘活各类大数据资源,实现数据价值最大化,推动相关技术、应用和产业的创新。 数据拥有方 DATA 数据堂 数据需求方 数据 获取 处理 服务

29 数据银行:数据资源与获取方式 基础数据 IT智能化 商家+商价 医疗健康 征信 智能交通 众包采集 线下大数据(40万众客) 行业大数据
有关位置、人、企业等基本 数据,以便在空间、时间以 及身份等维度上关联各个领 域数据: 全国公民身份证信息 全国超精细格网人口数据 企业基本信息数据(工商) 全国银联刷卡记录数据库 地图位置数据 全国天气、空气质量数据 IT智能化 移动终端、车载终端、 家 电、物联网的智能化需要 数据+智能化技术: 图像识别:图片导购、 安全监控、地图增值、 图像检索; 语音识别:语音助手、 语音导航、家电控制; 语义理解:人机交互、 舆情监控、客服中心; 商家+商价 移动互联网、传统互联 网业务O2O化,需要 线下数据在物理世界落 地: 家:家政、家装、亲 子、教育、运动、健 身、娱乐。 衣:商场、店铺 食:餐饮、美食 住:酒店、宾馆 行:车/船/飞机订票 医疗健康 医疗健康个性化、移动 化、智能化需要整合医 院、医生、医疗等数据: 医院、医生、药企、 医疗器械企业基本 信息采集与整合; 基于病历、体检等 基本医疗信息的个 人健康追踪; 基于个人健康的个 性化医疗保险。 征信 互联网金融服务需要海 量、多维的消费者和企 业信用数据: 个人身份信息验证 个人消费记录、电商 交易记录 个人交通出行数据 企业股东、高管信息 企业正负面信息、进 出口信息 智能交通 交通涉及整个国计民生, 其智能化、数据化、互 联化需要数据支持: 实时交通路况 车载设备及车联网 停车、违章、公交、 出租车 基于视频的交通安全 陆运、海运、空运 独家 众包采集 线下大数据(40万众客) 行业大数据 采购&代理 线上(互联网)大数据 数据爬虫 政府大数据 合作

30 人是移动的数据传感器! 数据获取途径 – 众包平台 案例 数据堂众包平台 – 线下大数据 人脸图像 购物小票 语音录音
40万全球(以中国为主)实名兼职人员(众客); 采集其它企业无法获取的独家线下数据; 采集案例:购物小票,商家店铺,脚尺寸,语音等; 为传统产业O2O化提供重要数据支撑。 人是移动的数据传感器!

31 数据获取途径 BD合作 – 行业大数据 政府合作 – 政府大数据 网络爬虫– 互联网大数据 中央网信办
精准的数据爬取、抽取、更新、整合能力; 与线下数据映射,形成线上和线下数据整合; 网络爬虫– 互联网大数据 深度参与中央网信办“国家公共信息资源开 放与社会化服务”的方案及服务体系制定; 此方案第一批将试点教育、公安、民政、人 力资源和社会保障、国土资源、住房和城乡 建设、交通运输、卫生和计划生育、工商行 政管理、食品药品监督管理等领域数据开放 与服务。 政府合作 – 政府大数据 中央网信办 已有近100家企事业合作伙伴; 采购或代理合作伙伴的数据;

32 数据处理技术:清洗、结构化、关联 数据获取 数据清洗 非结构化数据处理 数据关联 数据服务 脱敏 去噪 去重 … 图像识别 语音识别
语义理解 数据关联 身份关联 位置关联 时间关联 数据服务 定制 销售 订阅 应用 线下大数据 行业大数据 线上大数据 政府大数据

33 非结构化数据处理 – 人脸图片数据 数据堂拥有人脸识别的关键技术,其是图像处理的基本技术。 青年、男、白种人、中立表情
支持不同粒度的人脸特征识别 识别人脸图片的人脸区域、表情、性别、年龄、人种、脸部关键点等6种特征,识别率90%以上 支持不同复杂场景 支持不同姿态(平、仰、俯、左、右、前)、不同光线(亮、中、暗)下的人脸识别 基于大量人脸图片数据的建模算法 基于千万级人脸图片数据的深度学习建模 青年、男、白种人、中立表情 老人 黄种 女 微笑 中年 黑种 女 中立 青年 白种 男 中立 老人 黑种 女 中立 青年 白种 女 微笑 老人 白种 男 中立 青年 黑种 男 微笑 青年 白种 女 中立

34 凯凯2.4AT在冷车启动时,仪表盘上会有吱吱的声音,声音不大,但很烦人,开车的人会觉得郁闷。
非结构化数据处理 – 语音/文本数据 数据堂拥有从语音中识别语音内容的技术,和从自然语言文字中理解语义的技术。 语音识别 支持多种语言识别 支持普通话、英文的识别,识别率85%以上。 支持不同场景的语音识别 支持安静、室内噪音、室外噪音和车载噪音等4种典型场景下的语音识别 基于大量数据的建模算法 基于5万小时语音数据及T级文本数据,利用深度建模算法的分布式建模 明天天气非常好,我们去爬山如何? 语义理解 凯凯2.4AT在冷车启动时,仪表盘上会有吱吱的声音,声音不大,但很烦人,开车的人会觉得郁闷。 支持多种语言的语义分析 支持中文、英文、日文的文本语义分析,识别率85%以上 三层语义理解模型 自动分析句法结构、用户情感、查询意图 可处理各类书面语和口语 可处理新闻、短信、微博、微信、评论、论坛等各种形式的文本 品牌:丰田 车型:凯美瑞2.4AT 别称:凯凯,小凯 评价对象:仪表盘 评价内容:有吱吱的声音 倾向性:贬义 评价类别:噪音

35 数据处理与服务平台(Data As A Service)
数据服务平台 客户:APP服务商 语音助手 餐饮APP 吃喝玩乐 健康APP 汽车APP 客户:互联网企业、科技企业、互联网金融 定制 数据包 接口 投资 数据处理与服务平台(Data As A Service) 结构化处理 标准化 数据清洗 数据关联

36 数据也电商,交易弱化,变为需求和流量入口

37 服务案例:人口数据API 数据源:高精度网格化人口数据(反映人口静态情况),出租车GPS数据、公交车刷卡数据(反映人口动态流 动情况)。
产品:精准分析常住人口和流动人口的年龄特点、密度、活动规律、迁移路线,挖掘指定地点的人口规律数据 和用户属性(老家、住所、单位、常去场所、主要行动轨迹、人口消费能力),供商家店铺选址、政府公共资 源配置(地铁、公交、道路规划、教育、医疗)、商家营销广告投放。 商家店铺选址 高精度网格化人口数据 出租车GPS数据 政府公共资源配置 公交车刷卡数据 商家营销广告投放

38 服务案例:高速公路数据查询API …… …… 保险公司 保险产品设计和个性化保险费率 大车司机高速路行驶数据 行驶里程数 提供个性化车险费率
行驶特定路径排行榜 高速行驶间隔频率 是否办理ETC业务 提供个性化车险费率 高速险的风险评估 高速险的目标人群 精准高端车人群保险售卖 调用 API …… 付费 ……

39 典型客户

40 V1.0-V2.0 从共享交易到运营服务 从提供小麦到提供面粉

41 谢 谢!


Download ppt "从共享交易到数据资源运营 ---数据堂数据共享服务实践"

Similar presentations


Ads by Google