第十七届全国科学计算与信息化会议暨智慧科研论坛 计算系统虚拟化平台的建设 崔涛、程耀东 2015年08月21日
提纲 背景介绍 计算系统虚拟化的设计目标 高能所计算系统虚拟化的技术分析 CUI Tao/CC/IHEP 2018/12/31 - 2
背景介绍 16PB存储 40000核计算资源 高能所未来7年的大科学项目 计算需求 CUI Tao/CC/IHEP 2018/12/31 - 3
背景介绍 数据中心网络 架构特点 2015.7.18 双机虚拟化 双核心交换机 二层架构 核心层+10G ToR交换机 双机虚拟化 双核心交换机 二层架构 核心层+10G ToR交换机 骨干带宽 160Gbps 架构特点 双万兆防火墙 独立的管理网络 本地网络、登陆节点DMZ区、托管DMZ区 独立的虚拟化网络 SDN考虑 IPv6预引入 CUI Tao/CC/IHEP 2018/12/31 - 4
背景介绍 计算系统规模扩张带来的问题 计算系统虚拟化是解决上述问题的有效方法 Cern 计算系统虚拟化的进展 高能所计算系统虚拟化的进展 管理工作量大 作业冲突、作业干扰 故障恢复时间长 … 计算系统虚拟化是解决上述问题的有效方法 Cern 计算系统虚拟化的进展 2011年开展相关研究 2014年布达佩斯全面采用Openstack实现虚拟化 2015年达到15万虚核的虚拟化规模 采用固定虚拟机nova-network+flat方式实现虚拟网络 高能所计算系统虚拟化的进展 2014年5月成立云计算技术组 2014年11月建成第一个实验床 2015年7月虚拟化调度初步调试通过 规模化测试 虚拟机静态测试 2015年7月增加资源 CUI Tao/CC/IHEP 2018/12/31 - 5
高能所计算系统虚拟化的设计目标 基于Openstack技术实现虚拟化基础平台 基于作业驱动的虚拟机调度 弹性计算/按需计算 Openstack在Cern的广泛使用 基于作业驱动的虚拟机调度 弹性计算/按需计算 根据作业启动虚拟机,完成计算任务后释放虚拟机 根据作业类型选择Image,实现OS环境的完全匹配 作业可以选择虚拟计算资源 可计量的虚拟计算资源调度 资源性能分级 资源归属和使用的记帐 闲置资源的转让 CUI Tao/CC/IHEP 2018/12/31 - 6
高能所计算虚拟化平台的现状 基于Openstack Icshouse 硬件资源 提供UI和测试服务 网络 2014年11月份小规模试用 8台服务器 240核、912GB内存、6.34T存储 提供UI和测试服务 计算系统UI SL55\SL65 32位/64位 计算系统WN SL65 用于测试 TEST SL65\SL7.0\SL7.1\Win7 网络 2个本地私有地址段,1个公有地址段 虚拟机生成后15秒自动生成真实域名 同时加入PUPPET、VMM、ganglia等 2014年11月份小规模试用 93个实际用户,每人只有3台虚拟机的配额 2015年8月份资源耗尽 CUI Tao/CC/IHEP 2018/12/31 - 7
计算虚拟化平台建设的要素 网络架构 存储 Image 环境匹配 Dashboard 安全与控制 自动化安装 大规模部署问题 CUI Tao/CC/IHEP 2018/12/31 - 8
技术实现—网络 网络需求 Openstack 虚拟网络模型 虚拟化网络方案 虚拟机是合法的计算集群主机;高效的网络传输;灵活的接入任意网段、使用任意资源 Openstack 虚拟网络模型 网络架构 ML2 OVS、Linuxbridge…、Cisco、Arista、Brocade… Neutron L2/L3 Agent Linux iptables 管理网络、API网络、外部网络、内部网络 (租户网络 Falt\Vlan\Gre\Vxlan) 两个问题 虚拟机对外不可达,内部、外部网络的人为隔离 L3的转发瓶颈 虚拟化网络方案 L2 虚拟网络 Neutron OVS+Vlan 放弃多租户隔离 开放Sec-group; L3 物理交换机转发 网关上的网关 支持多vlan 交换机端口启用802.1Q 协议 CUI Tao/CC/IHEP 2018/12/31 - 9
技术实现—存储 虚拟化平台的存储 CEPH ? GlusterFS 实验环境 测试结果 Glance images Nova instances Cinder volume CEPH ? GlusterFS 分布式存储系统 Copy on write 实验环境 Ceph服务器,2台,33TB存储空间 Openstack juno 11台服务器 万兆网络 测试方法 dd、实际Openstack操作 测试结果 CUI Tao/CC/IHEP 2018/12/31 - 10
技术实现—Image 制作: 初始化 cloud_init/脚本、程序 运行维护 qemu-kvm/qemu-system-x86_64+linux bridge PXE安装或本地ISO文件安装 清除安装痕迹,网卡, Iptable,NetworkManager,selinux 减小虚拟机尺寸 初始化 cloud_init/脚本、程序 主机名 host-192-168-100-100 启动Ganglia、PUPPET进程 AFS认证 Mount 文件系统 运行维护 升级问题 镜像、在线虚拟机 CUI Tao/CC/IHEP 2018/12/31 - 11
技术实现—环境匹配 内部环境匹配---PUPPET 外部环境匹配---NETDB组件 … 配置同步、软件更新、补丁更新, 内核更新 … 目标: 使虚拟机成为合法,可监控的 计算资源 原理:定时扫描Openstack核心数据库,获 取虚拟机网络信息、运行状态、资产归 属等信息;自动生成虚拟机域名;通过接 口主动推送信息。 功能: 获取: 实时获取虚拟机的相关信息 记帐: 虚机ip、mac、资源占用、宿主机、租户信息、虚机创建、删除时间等 推送: 生成域名并推送给DNS服务器、Nagios、PUPPET 接口: 针对虚拟调度收集虚拟机相关信息并提供查询接口 … 基于Openstack的动态信息源,Controller的一个外置信息接口 CUI Tao/CC/IHEP 2018/12/31 - 12
技术实现—Dashboard改造 修改了Dashboard界面 提供多种资源配置 … 提供多种网络配置 多种镜像 隐藏了网络选项 增加了虚拟机角色选择,并后台自动匹配 相应的网络 AFS认证 提供多种资源配置 Cpu – RAM – DISK … 提供多种网络配置 本地计算环境的私网地址 DMZ区的公网地址 多种镜像 UI-SL55-64-20G AFS帐号 UI-SL58-64-20G AFS帐号 UI-SL65-64-20G AFS帐号 WN-SL65-64-20G AFS帐号 TEST-SL7-64-40G Root CUI Tao/CC/IHEP 2018/12/31 - 13
技术实现—安全与控制 虚拟网络安全 租户行为控制 统一认证 监控 记帐 网络架构 数据中心网络与虚拟网络L3互联 宿主机/虚拟机网段分离 交换机 ACL控制 Vnc 端口 公网地址控制 Sec-Group 自动化程序配置 Image Root权限控制 租户行为控制 基于策略的多租户操作控制 Glance、Neutron、Cinder 关闭 novpnproxy 统一认证 Openstack Mysql 计算中心 统一认证系统 Ldap 监控 性能监控、行为监控 记帐 CUI Tao/CC/IHEP 2018/12/31 - 14
技术实现—自动化安装 Openstack安装工具 基本约定 安装准备 安装 系统调试 RDO Redhat Openstack Controller 集中glance、cinder、ceilometer等服务 Network node 网络控制器 Compute node 计算资源 安装准备 Yum 源 Rpm依赖 | Yum源与网络带宽 网络规划 Tenant网络的确定 | 物理交换机配置 | IP地址及域名规划,物理服务器及虚拟机域名预定义 交换机配置 端口的Trunk配置 OS检查及配置 Selinux、NetworkManager、Dns、hostname、网卡配置、无密码登陆 Cinder lvm卷 安装 Packstack --answer-file=my.conf 系统调试 网络配置 生成多Vlan及DHCP 系统配置 Admin密码、Sec group、Qutta、Images、flavor CUI Tao/CC/IHEP 2018/12/31 - 15
小结 采用Openstack构建计算资源虚拟化的基础平台,技术上已基本成熟 未来Openstack在高性能计算环境中实施大规模部署 复杂的资源评价和调度系统 松耦合的云集群架构 CUI Tao/CC/IHEP 2018/12/31 - 17
谢谢! Shi,Jingyan/CC/IHEP 2018/12/31 - 18