Made by Feng Nie (1913144974@qq.com) 开源机器学习库&Hadoop介绍 Made by Feng Nie (1913144974@qq.com)

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
广西北投集团沿海高速 广西新长江高速 广西交通投资集团 广西龙光广贺 广西华通高速 桂林港建高速 广西北投集团沿海高速 广西新长江高速 广西交通投资集团 广西龙光广贺 广西华通高速 桂林港建高速 广西高速公路收费员职业简介 —— 高速公路收费员服务网 —— 高速公路收费员服务网.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
护理学基础 第七章 医院与住院环境.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
高级软件工程 复习课.
第九章 会计设置及机构.
第120讲:Hadoop的MapReduce和Yarn的配置实战详解
第二讲 职业概论.
公司保密工作要求及 院商秘保护工作安排 2014年9月12日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
2011计算机类教研活动 陈国久.
珍惜友谊,珍惜生命 陡岗小学 张玉国.
基于Hadoop的Map/Reduce框架研究报告
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
代表机构年报操作指南 (代表机构端) 二〇一一年二月.
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
我从不曾失败过,只是尚未成功而已 谭安良10年职业生涯规划.
为教师开展大数据课程教学提供全方位、一站式服务
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
何娜 求职经验交流 何娜
一种基于Hadoop的视频大数据分布式解码方法 冯强
Introduction to MapReduce
YARN & MapReduce 2.0 Boyu Diao
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
Data Mining 工具介紹 (Weka+JDBC)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
斯巴達帶大家上雲端.
Data Mining 工具介紹 (Weka/R + ODBC)
从TDW-Hive到TDW-SparkSQL
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
國立中山大學30週年校慶籌備委員會 中山大學30週年校慶籌備會 第二次工作會議 03/29/2010.
软件工程基础 云计算概论 刘 驰.
Spark SQL 介绍 付士涛. Spark SQL 介绍 付士涛 大纲 Architecture(架构) 像Hive一样的User Interface(用户操作界面) DataFrame的使用(1.3以前叫做SchemaRDD)
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
古佳怡 實驗流程.
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于云计算及数据挖掘技术的海量数据处理研究
基于MapReduce的Join算法优化
教育部特殊教育通報網 學生異動、接收操作說明.
第五讲 金融证券化.
臺北市97學年度國民小學試辦讀報教育實施計畫
第8章 Spark MLlib (PPT版本号: 2019年春季学期)
《大数据导论(通识课版)》 第4章 大数据应用 (PPT版本号:2019年秋季学期)
《大数据导论(通识课版)》 第6章 大数据思维 (PPT版本号:2019年秋季学期)
《大数据导论(通识课版)》 教材官网: 第5章 大数据安全 (PPT版本号:2019年秋季学期)
Presentation transcript:

Made by Feng Nie (1913144974@qq.com) 开源机器学习库&Hadoop介绍 Made by Feng Nie (1913144974@qq.com)

机器学习开源库 Libsvm Scikit Nltk Lucene Weka DMTK

机器学习开源库 Libsvm / liblinear : C++实现的基本的机器学习算法,比如逻辑式回归,支持向量机,通常用于实验的 benchmark,速度和训练效果都很快,官网有数据处理方法。 http://www.csie.ntu.edu.tw/~cjlin/liblinear/ http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Scikit python的开源的机器学习库,基于numpy/scipy完成,有大量的函数可以供调用,回归, 分类,聚类以及部分深度学习的内容。安装很简单,直接用python包管理器 pip install scikit-learn 即可 http://scikit-learn.org/stable/index.html

机器学习开源库 NLTK 为python的自然语言相关的机器学习开源库,其中有很多自然语言的基本算法,比 如chunking, parsing 很合适处理原生数据,用包管理器pip安装即可 http://www.nltk.org/ Lucene 为JAVA的全文索引的工具包,用于搭建搜索引擎 http://lucene.apache.org/ http://www.chedong.com/tech/lucene.html

机器学习开源库 Weka JAVA实现的数据挖掘工具包,可以预处理大规模的数据,以及有回归分类可视 化等等数据挖掘经典算法 http://www.cs.waikato.ac.nz/ml/weka/ DMTK 微软去年公开的C++的自然语言处理相关的机器学习工具,有LDA,词向量混 合模型等算法实现 https://github.com/Microsoft/DMTK

深度学习开源库 Theano / Keras Python的深度学习库 (建议先安装BLAS, 矩阵运算加速), 神经网络的很多 算法可以用GPU加速,并且网络的设置简单便于使用, Keras是基于 theano封装的一个深度学习库,里面LSTM 等模型便于使用 http://www.deeplearning.net/software/theano/ http://keras.io/

Hadoop&Spark Hadoop & Spark structure Why using spark Spark installation Running Spark on Amazon EC2 Simple Spark program (word counts example)

Hadoop -- HDFS Hadoop是一个实现了map-reduce模式的开源的分布式并行编 程框架,核心部分是map reduce 以及分布式文件系统(HDFS) HDFS 采用的是Master/slave架构,每一个HDFS集群都是由一 个Namenode和若干个datanode组成。

Hadoop -- Map reduce 一个MapReduce作业(job)通常会把输入的数据集切分为若干独立 的数据块,由 Map任务(task)以完全并行的方式处理它们。框架会 对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作 业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度 和监控,以及重新执行已经失败的任务。

Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架。 Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性

Spark – RDD (Resilient Distributed Dataset ) RDD是Spark最核心的东西。 1. 它是在集群节点上的不可变的、已分区的集合对象。 2.通过并行转换的方式来创建如(map, filter, join, etc)。 3.失败自动重建。 4.可以控制存储级别(内存、磁盘等)来进行重用。 5.必须是可序列化的。 6.是静态类型的。

Spark 安装 需要安装 JAVA (JDK) & maven http://maven.apache.org/ Scala 下载 http://www.scala-lang.org/download Spark download http://spark.apache.org/downloads.html Linux/unix 安装 1.配置好scala环境变量 e.g export SCALA_HOME=/opt/scala-2.10.4  export PATH=$PATH:$SCALA_HOME/bin 2. 解压spark,进入spark目录 输入 sbt/sbt clean assembly (需翻墙, 申请maven更多内存) 3. 解压完可以运行./bin/spark-shell, 安装完成

Spark on Amazon EC2 注册Amazon EC2 账号(提供免费有限制的一年服务,需要信用卡信息) 设置 name->security&credentials->Access Keys->创建Access Keys,然后下载Access Keys & secret access key 进入Services -> Computing -> EC2 -> 创建 Key pairs ->下载key_pair_name.pem 并且存放在固定地址(每 一次申请登录都需要) 更改key_pair_name.pem读写模式为400/600 chmod 400 xx.pem 将Access key id 以及 secret access key export到系统中 进入spark文件下ec2文件夹 运行spark-ec2脚本 ./spark-ec2 –k <key_pair_name> -i /path/key_pair.pem –t t2.micro launch cluster_name

Spark on Amazon EC2 经过刚刚的步骤,打开Amazon EC2的个人页面,发现在 INSTANCES下增加了刚刚添加的实例说明添加成功,之后可 以用key_pair_name & key_pair_name.pem进行ssh 登录 ! 参考安装步骤网址 http://ondrej-kvasnovsky.blogspot.com/2014/06/how- to-install-spark-on-mac-os-x.html http://www.ituring.com.cn/article/202480 https://spark.apache.org/docs/latest/ec2-scripts.html

Word count program spark 用pyspark进行spark编程, 首先import需要的库 1.创建一个RDD,将文件导入,我们print text发现是一个创建好的RDD 2. 将文本分成单词数组,利用flatMap接口建立一个新的RDD用来统计单词

Word count program spark 3. 用map函数将词组转变为key-value键值对,生成新的 MapPartition RDD 4. 用reduce接口来统计单词个数

Reference https://spark.apache.org/docs/latest/programming-guide.html http://blog.jobbole.com/86232/ http://www.tuicool.com/articles/M7VNnqm http://blog.csdn.net/u011391905/article/details/37929731

Thank you! Made by Feng Nie