浅谈大数据实验室的建设
大数据实验室的建设能实现编程教学实验、数据库实验以及网盘应用系统,该平台技术上采用服务器虚拟化技术通过云管理平台实现了实验环境的快速部署。
1建造设计目标
建造设计云实训平台,在该平台上完成了编程教学实训、数值库实训以及网盘应用系统;该平台技术上应用服务器虚拟化技术经过云管理平台完成了实训环境的快速部署;虚拟化平台基于磁盘阵列集中存储,应用FC SAN互联网架构。现规划建造设计一个Hadoop 大数值实训室,使用已经建造设计好的平台,经过拓展资源池的方法部署,运用现有服务器虚拟化平台虚拟出大量虚拟机用来组建Hadoop 集群,主要用来学员实训以及科研用途。假定建造设计目标和规模如下:
建造设计目标:建造设计成校级实训室,适用学员做大数值实训和教师大数值科研。
建造设计规模:系统支持100个左右的虚机同时运行,功能适用学员大数值实训需求。
拓展性需求:系统需具备良好拓展能力,可以便利拓展系统容量(KV)(KV)和功能,以适用更多实训和科研需求。
2配备装备方案
本章节对组建大数值实训室所需要的硬件资源实行配备装备,从大数值实训资源需求出发来解析组建大数值实训室需要对现有物理服务器、磁盘阵列、FC交换机、IP互联网交换机的资源做哪些扩容。2.1已有资源
云实训平台已经部署了10多台2路物理服务器,经过1台FC交换机与1台磁盘阵列连接;现有物理计算资源可以支撑同时运行200个虚机(1个LCPU、4GB内部存储、30GB虚拟磁盘),现有磁盘阵列的存储资源主要提供虚机存储空间和网盘存储空间。2.2扩容资源需求
对资源需求实行估算是虚拟化系统硬件配备装备的基础依据。在大数值实训室中,资源可分为两大类:一类是运行时系统需要的资源,它决定了系统能支持同时运行多少个虚机,该情形主要关注物理服务器的CPU 资源、内部存储资源和磁盘阵列的IOPS 资源,磁盘IOPS资源在大数值实训中需求相对较高;另一类是系统可以"存放"多少个虚机,这主要关注磁盘阵列的存储容量(KV)(KV)。运行资源
假定虚机规格如下表中所示,该规格适用大数值实训环境下对功能的需求;则200个虚机同时运行,需提供下表中所需资源。
Linux虚机规格 | 同时运行虚机数量 | 虚拟资源池大小需求 | ||
CPU大小 | 2个逻辑CPU、2.0GHZ | 100 | CPU资源 | 200个逻辑CPU、200GHz |
内部存储大小 | 4GB | 内部存储大小 | 400GB | |
磁盘IOPS | 100 | 磁盘IOPS | 10000 |
存储容量(KV)(KV)
磁盘阵列存储空间由需要多少个虚机和虚机磁盘大小决定,假定虚机磁盘规格如下表所示、需要存放500个虚机,总共需要约210TB的存储空间。
Linux虚机规格 | 虚机总数 | 磁盘阵列存储空间需求 | ||
磁盘1(系统盘)大小 | 15GB | 500 | 磁盘空间 | 107500GB(100TB) |
磁盘2(数值盘)大小 | 200GB |
2.3物理服务器扩容配备装备
作为虚拟化主机的物理服务器,目前可选用的配备装备主要有2路和4路,综合考虑CPU运用率、互联网成本等因素,我们建议选用2路服务器作为虚拟化主机,2路较4路将提供更好的性价比。首先计算总共需要多少物理的CPU资源和内部存储资源,计算以上述"运行资源"为基础依据,并考虑物理资源的80%用作运行虚拟机。
虚拟资源池大小 | 比例 | 物理资源池大小需求 | ||
CPU资源 | 200个逻辑CPU、200GHz | 80% | CPU资源 | 250个逻辑CPU 250GHz |
内部存储资源 | 400GB | 内部存储资源 | 500GB |
新增物理资源池大小 | 物理服务器规格 | 物理服务器数量 | ||
CPU资源 | 250个逻辑CPU 、250GHz | CPU | 2路10核、超线程(40个逻辑CPU)、2.0GHz | 7 |
内部存储资源 | 500GB | 内部存储 | 128GB | 4 |
磁盘 | 1*240GB SSD盘 | |||
网口 | 4*1gb | |||
FC口 | 1*8gb |
2.4磁盘阵列扩容配备装备
磁盘阵列作为虚拟化系统后端共享存储,主要考虑IOPS功能和存储空间的要求。存储空间显然容易配备装备,而IOPS存在诸多变数,这是个无法准确估算的指标,为了使系统具备良好的功能,我们实行了仔细考量。依据2.2节所估算的IOPS功能要求和存储空间要求,估算系统需要多少块SAS磁盘。
存储资源需求 | 单块SAS盘 | 需配备装备SAS磁盘数量 | ||
IOPS | 10000 | IOPS | 200 | 50块 |
存储容量(KV)(KV) | 107500GB | 容量(KV)(KV) | 900GB | 120块 |
第1:使用高功能SSD盘集合SAS盘,提供较SAS盘更好的功能;该部分的空间主要用来虚机的系统盘。
第2:使用高功能SSD盘集合大容量(KV)(KV)SATA盘,主要适用系统容量(KV)(KV)的需求,并提供了接近SAS盘的功能;此部分存储空间主要用来虚机的数值盘。
现有磁盘阵列扩容配备装备配备装备如下表:
磁盘阵列扩容配备装备 | 可提供的规格、功能 | ||
控制器 | (双活冗余控制器) | IOPS | 大于12000 |
缓存 | (32GB) | 存储容量(KV)(KV) | 120TB裸容量(KV)(KV) |
SSD盘 | 新增:4*200GB | SSD缓存 | 支持 |
SAS盘 | 新增:12*900GB | 精简置备 | 支持 |
SSD盘 | 新增:4*400GB | 存储快照 | 支持 |
SATA盘 | 新增:28*4TB | ||
2.5FC SAN互联网扩容配备装备
由于新多加了8台物理服务器,FC交换机需要新多加激活端口和相应模型块,数量为8个。2.6IP互联网扩容配备装备
原交换机为48个千兆网口,从端口数量上来说资源是够的,但是在大数值实训环境中,虚机之间存在大量的东西向数值流量,因此我们设计多加一台24口的千兆交换机用来大数值集群后端互联网流量通道。2.7扩容配备装备表单
组建适用100个虚机同时运行的大数值实训平台,需要对现有云实训平台物理资源实行扩容,扩容含有概括:新增8台物理服务器、磁盘阵列添加SSD/SAS/SATA盘、FC交换机多加激活端口、新增1台24口IP交换机,详细扩容配备装备表单如下表:序号 | 名称 | 品牌/型号 | 扩容配备装备描述 | 数量 | 单位 |
一 | 云实训平台硬件扩容配备装备 | ||||
1-1 | 虚拟化主机 | 云创cServer | 2U机架式服务器带机架装配套件;CPU:2颗Xeon E5-2670 V3,内部存储:128GB;4个千兆网口;Disk:1块240GB SSD,板载支持R--d0,1,5 ,FC口:单口8Gb; | 8 | 台 |
1-3 | 磁盘阵列 |
云创 rStor 7000 |
扩容新增:4*200GB SSD,4*400GB SSD,12*900GB SAS盘、28*4TB SATA盘,SSD缓存功能、精简配备装备功能、快照功能 | 0 | 台 |
1-4 | 光纤交换机 | Brocade 300B | 扩容新增:8个端口激活许可,8个端口8gb模型块; | 0 | 台 |
1-5 | 千兆交换机 | 华为 S5700-28C-SI | 24个10/100/1000Base-T,可插拔交流ACAC电源,交流ACAC供电 | 1 | 台 |
二 | Hadoop教学培训服务 | ||||
2-1 | 1 | 套 | |||
三 | 其他相关费用 | ||||
3-1 | 机储物储物柜 | 1 | 台 | ||
3-2 | 定制研发 | ||||
3-3 | 装配调动测量试验 | ||||
3-4 | 培训服务 |
3部署方案
3.1系统架构
系统架构在扩容前后基础没有改变,扩容后的整个虚拟化系统部署架构如下图所示。与原先区别主要是资源池扩充了,新增的物理服务器含有概括一个新的集群,并而而且经过新多加一台千兆交换机含有概括大数值实训虚机后端互联网流量通道。
3.2IP互联网部署
本项目中对于IP互联网的部署设计,除了考虑vSphere环境下一般性的部署注意事项外,还需要注意由虚机含有概括的Hadoop集群对IP互联网的需求。上图是一台物理服务器的虚拟互联网和物理互联网连接示意图。
每个虚机配备装备2个虚拟千兆网口,一个用来虚机前端业务流量,一个用来Hadoop集群后端流量,虚拟交换机vSwitch1和vSwitch2技术上可以使用一台、可以配备装备为标准虚拟交换机或分布式虚拟交换机,为了清晰和降低难度,建议配备装备为2个标准虚拟交换机;vSwitch0和vSwitch1上行链路可以互为备份,vSwitch1和vSwitch2的上行链路可以互为备份;物理服务器4个网口连接到2台堆叠的物理交换机。这种部署设计完成了IP互联网全冗余,提供了故障变换和互联网负载均衡功能。
3.3Hadoop集群部署
经过虚机部署Hadoop集群,当然需要评估虚机资源的需求,即使评估有误也无关系,虚拟化的一大好处就在于资源可以灵活调动。在部署和使用虚机时,我们可以集合使用虚机模板、虚机克隆、虚机快照等技术为创建和使用实训环境提供便利。
Hadoop集群含有了Master节点和Slave节点,可以实行Hadoop部署实训、HDFS实训、MapReduce实训、HBase实训、Hive实训等。下表是节点虚机配备装备参考。
Master节点配备装备参考 | Slave节点配备装备参考 | ||
CPU | 2*LCPU | CPU | 1-2*LCPU |
MEM | 8-16GB | MEM | 2-8GB |
Disk1(sda) | 15GB | Disk1(sda) | 15GB |
Disk2(sdb) | 20GB | Disk2(sdb) | 50-200GB |
虚拟网卡1 | 千兆 | 虚拟网卡1 | 千兆 |
虚拟网卡2 | 千兆 | 虚拟网卡2 | 千兆 |
3.4部署计划
下表给出本项目部署实施的一些主要任务和时间预估。任务 | 时间 |
IP地址规划,VLAN规划 | 4H |
Fabric Zone规划 | 1H |
存储LUN规划 | 2H |
虚机资源规划 | 1H |
设备上架,完成物理装配 | 1D |
磁盘阵列初始装配 | 2H |
FC交换机配备装备 | 2H |
IP互联网配备装备(交换机、路由器) | 2H |
存储完成配备装备 | 2H |
vSphere装配配备装备 | 1.5D |
虚机资源规划 | 2H |
系统ISO导入,虚机模板创建 | 1H |
第一个大数值集群建立 | 1D |
使用测量试验,调动 | 2D |
创建其他大数值集群 |