中国移动信息技术中心项目总监王娟:全闪存阵列技术规范探讨

中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日新技术与测试分论坛上,中国移动通信集团有限公司信息技术中心项目总监王娟带来了《全闪存阵列技术规范探讨》。

延吉网站建设公司创新互联建站,延吉网站设计制作,有大型网站制作公司丰富经验。已为延吉1000+提供企业网站建设服务。企业网站搭建\外贸营销网站建设要多少钱,请找那个售后服务好的延吉做网站的公司定做!

中国移动通信集团有限公司信息技术中心项目总监王娟

大家好,我是中国移动信息技术中心的王娟,下面跟大家共同探讨《全闪存阵列技术规范》,主要包括五个方面的内容:第一部分是存储架构演进路径:随着存储技术的发展以及新型业务的出现,涌现出不同存储类型产品,我们首先介绍存储架构的演进路径,明确不同存储类型之间的关联;第二部分是全闪存阵列的技术优势:除了全闪存阵列提供块接口外,分布式块存储、磁盘阵列均提供块接口,他们应用场景上有部分重合,这里对他们进行对比分析,明确全闪存阵列技术优势及适用场景。第三部分简单介绍一下全闪存阵列的市场情况;第四部分介绍一下中国移动对全闪存阵列的需求;第五部分对全闪存阵列的技术规范要求进行简要介绍,主要从架构、功能、性能、可靠性、扩展性等多个方面展开。

第一部分 存储架构演进路径

基于存储架构的差异,存储系统主要分为外部存储和软件定义存储。外部存储采用(控制框+硬盘框)架构,主要包含传统存储、以及全闪存阵列等。软件定义存储基于通用PC服务器+交换机组成存储系统,主要包含分布式块存储、分布式文件存储、分布式对象存储。

以前大家使用传统存储较多。传统存储中主要包含NAS和SAN,NAS提供文件接口,主要优势在于访问接口友好,在中国移动前期多用在话单、邮件、OA等业务场景。SAN提供的是块存储接口,主要优势在于系统的稳定性和增值功能强大,在中国移动前期主要使用在核心业务的后端存储中。随着存储技术的发展以及新型业务的出现,传统存储SAN正在向全闪存阵列、分布式块存储演进,他们都提供块访问接口;传统存储NAS正在向分布式文件存储和分布式对象存储演进,它们主要用于存储非结构化数据。

第二部分 全闪存阵列的技术优势

我们再来看一下全闪存阵列的技术优势。

首先看一下外部存储和软件定义存储它们的不同定位。全闪存阵列、传统盘阵、分布式块存储都能提供块接口,传统盘阵和全闪存阵列属于外部存储,分布式块存储属于软件定义存储。首先,在可扩展性方面,外部存储采用的是控制框加硬盘框的架构,可扩展性一般;软件定义存储是基于通用的服务器加交换机组成存储系统,可扩展性更好。其次,在增值功能方面,外部存储久经历史考验,系统的稳定性和增值功能更强大;软件分布式块存储处于快速发展中,很多增值功能目前还在快速补齐中。最后,在时延方面,外部存储它的访问时延会比较低,软件定义存储它的访问时间会比较高。

不同存储类型架构的差异使得他们具有不同定位、适用于不同使用场景。分布式块存储可扩展性好、易管理,适用于容量需求较大的资源池业务;前期中国移动已经集采了大量的软件定义存储产品,对于分布式块存储产品,中国移动前两期共集采3110套,有效容量超过330PB。对于一些核心数据库等应用场景、他们对可扩展性要求不高、对时延和增值功能要求较高,因为分布式块存储的增值功能等方面暂时满足不了这些应用场景需求,这部分应用场景仍需用全闪存阵列或传统盘阵来满足。

我们再对功能和时延方面做简单的对比分析。功能的话,可以细化为基本功能、高级功能、本地数据保护功能、远端数据保护功能、容灾功能等。分布式块存储在本地数据保护的一致性组快照功能、远端数据保护的远程复制功能、双活等功能方面不是很完善。而全闪存阵列和传统盘阵在这些增值功能上比较强大。在时延方面,当它们都采用相同的后端存储介质的情况下,以写操作为例,外部存储写操作是在多个控制器的缓存写镜像后立即返回成功,访问时延低。分布式块存储的写操作需跨多台服务器及网络,访问时延较高。

我们再来看一下全闪存阵列和传统盘阵的对比分析。全闪存阵列不是简单的将传统磁盘阵列中的磁盘更换为SSD硬盘,而是针对SSD自身特征做过设计优化的,完全由SSD构成的一个独立的存储设备。首先,在硬盘寿命管理方面,SSD的寿命是跟颗粒的擦写次数紧密相关,全闪存阵列需要针对SSD的使用寿命特征进行相应的设计,延长SSD使用时间,比如采用磨损均衡和寿命检测等功能。其次,在性能方面,传统盘阵性能瓶颈在HDD磁盘,传统盘阵系统软件需要围绕如何消除HDD磁盘性能瓶颈来开发设计。全闪存阵列的性能瓶颈点在控制器,性能瓶颈的转移使得全闪存阵列的软件设计的关注点发生了改变。最后是增值功能方面,全闪存阵列它采用重删压缩技术去降低使用成本,提升成本优势。同时在全闪存阵列中,重删压缩功能的开启,对系统性能影响会控制在一定的范围内;像传统盘阵有部分产品也有重删压缩技术,但是它的重删压缩功能的开启会对系统的性能影响比较大。全闪存阵列的功能、性能、时延等优势使得其在核心业务场景比较受欢迎。相比传统盘阵,全闪存阵列还具备功耗低、占地小等其他优势。

第三部分 闪存阵列的市场情况

下面我们看一下全闪存阵列的市场情况。

在IDC发布的2019年第四季度的企业存储市场数据中,全闪存阵列2019年全球市场占比是38.7%,国内市场中占比是18.1%,国内市场的整体年增长率达到了57.6%,它的市场前景比较好。

第四部分 中国移动对全闪存阵列的需求

前期我们调研了中国移动的核心业务系统对全闪存阵列的需求,主要是包括有效容量的需求和技术指标的要求。首先看一下有效容量的需求,通过调研发现有效容量点比较小的需求套数会比较多,多数有效容量是集中在小于400TB以内,有效容量点大的需求套数就会比较少。再看一下核心业务系统对全闪存阵列技术指标的要求,我们重点关注的是核心业务它对时延指标以及增值功能要求,通过调研发现超过73%的业务它既对时延敏感同时对增值有要求,核心业务多数对时延有≤5毫秒的要求,增值功能主要集中在容灾和远程复制功能方面。

第五部分全闪存阵列的技术规范

下面我们再来看一下第五部分全闪存阵列技术规范要求这一块,首先来看一下整体架构。

全闪存阵列系统架构主要包括三块:

1、系统管理模块,它要支持系统的管理、监控、性能、告警等功能,要能够通过SNMP协议向第三方平台上报告警信息,同时支持图形化管理操作和命令行操作。

2、资源管理模块,能向第三方资源管理平台提供API,提供卷、快照等操作和资源计量信息查询等,提供OpenStack cinder商用接入驱动,支持cinder-volume标准接口,兼容OpenStack 多种版本要求。

3、存储功能模块,主要包括通用功能和增强功能。

通用功能这里主要介绍八个:

1、LUN管理,支持LUN的创建、扩容、删除、挂载、卸载、查询等操作。

2、RAID保护,支持按照不同RAID策略创建RAID组或者存储池。

3、快照管理,主要支持快照的创建、删除、快照一致性组等操作。

4、克隆功能,主要能够支持克隆的创建和删除等操作。

5、QoS功能,以LUN为目标去设置QoS,它主要是限制非关键性业务对存储系统资源的使用,为关键业务预留足够资源。

6、负载均衡和主机多路径功能,主要实现控制器之间的负载均衡,满足存储网络的高可靠性和高性能的要求。

7、自动精简配置,它主要是能够支持多次少量的按需分配存储空间给LUN。创建LUN的总空间可以大于存储池大小。

8、数据缩减功能,主要能够支持在线实时压缩、在线重删等功能。

增强功能主要包括两块:

1、异步远程复制,它主要支持在两套存储系统之间源LUN和目标LUN数据保持同步,目标LUN数据更新可略迟于源LUN数据更新。

2、双活功能,主要能够支持业务不间断运行,多套主备存储数据实时一致。

下面我们对部分功能的细节进行简要描述:

1、数据缩减功能。

全闪存阵列它通常会采用数据缩减功能去减少在存储系统中实际存放的数据量,降低使用成本,缩小与磁盘阵列成本差距。同时开启数据缩减功能对前端业务性能会造成一定影响,因此我们对数据缩减功能以及它要达到的效果进行简要的要求。

数据缩减功能使用效果跟业务场景是强相关的,在不同的业务场景下能够达到的数据缩减比是不一样的。以Gartner发布的数据为例,OLTP数据库这种业务场景下开启压缩功能的效果更好,数据缩减比能够达到3-4:1。VDI这种业务场景下开启重删功能的效果会很好,它的数据缩减比能达到7-12:1。

全闪存阵列主要用在核心业务中,有一块比较关键的业务是CRM数据库,所以我们就采用核心业务系统中的CRM数据库中的数据存储模型,去测厂商不同产品能够达到的数据缩减比效果。同时由于数据缩减功能的开启,会对前端业务系统性能造成一定的影响,所以我们在考察产品它的数据缩减比值的同时,也会考察开启数据缩减功能后对整个系统业务性能的影响。

2、快照一致性组功能。

核心数据库通常会采用多个LUN分别存放其数据、控制数据、redo log等,这些数据之间存在关联,我们需要在同一个时间点对它们创建快照,保证它们数据的完整性。因此需要要求快照一致性组功能。

3、远程复制和双活功能。

通过调研发现,现网有很多业务它采用了双活双中心,或者是远程复制的容灾方案,超过80%的核心业务会对远程复制和双活功能有要求,因此我们也加强了这块的要求。

4、重构时间要求。

硬盘连续性失效会导致存储系统数据的丢失,因此我们会对硬盘在故障后的重构时间进行一定的要求。数据重构时间跟前端业务负载压力强相关、同时数据的重构也会影响到前端业务性能,这个重构时间要求是针对前端业务负载达到整个系统性能峰值50%的业务负载情况下发生重构、并且数据重构时对前端业务性能的影响不能超过5%的情况下,要求1TB裸容量的重构时间不能超过90分钟。

全闪存阵列技术规范中性能要求:

我们在制定全闪存阵列的性能指标时,会综合考虑业务的需求、全闪存阵列设备的硬件配置、厂商产品实际能力等多个因素。

我们拉齐全闪存阵列设备的硬件配置,在满足该硬件配置最小要求的情况下,去测试多种厂商产品的性能,综合考量后,去制定全闪存阵列设备的性能指标值。

比如我们要求全闪存阵列它是要采用至少双控的情况下,双控的缓存容量≥896G的情况下,SSD盘要配够72块、单盘容量≥3.84TB,采用可任意坏2块SSD硬盘的RAID机制(数据盘≤14,校验盘≥2 ),前端FC接口≥16个16Gb,后端接口总带宽≥192Gb这种硬件配置情况下我们去测全闪存阵列设备的性能。

我们对全闪存阵列的性能指标的要求包括两个方面,第一个是在不开启数据缩减功能的时候,我们会要求系统在满足≤1ms时延的情况下,系统的IOPS要能够达到35万。如果开启数据缩减功能的话,它会对系统性能造成一定的影响,我们同时对开启数据缩减功能它的系统性能也做了一个要求,就是要求在满足≤1ms时延的情况下,系统的性能要能够达到31.5万。

可靠性要求主要包括三个方面:

1、系统部件的冗余。

2、系统的可靠性。

3、数据的一致性。

系统部件冗余这块我们会要求控制器、控制器之间的交换设备、接口卡、电源、风扇、SSD这些配件冗余配置,不能存在单点故障。

系统可靠性要求控制器个数≥4时,两个控制器同时发生故障时,业务不中断。

下面我们来看一下全闪存阵列的扩展性要求这一块:

主要包含扩展性功能要求、扩展性指标要求。扩展性指标要求主要是包括全闪存阵列它单机的控制器数量,单机中每双控可用Cache容量,单机可用SSD数量,单机可用前端接口数量等进行相应的要求。

全闪存阵列系统管理要求主要列出了10点要求:

包括配置管理、网络端口管理、控制器管理、存储池及介质管理、SSD健康状态监控、日志与报表、告警管理、性能管理、在线版本升级、权限管理等功能要求。

以上是全闪存阵列技术规范的一个简要介绍,更多细节要求可以参考我们在ODCC发布的全闪存阵列的技术白皮书,也欢迎更多的需求方以及存储厂商共同加入我们,一起完善存储相关的标准,谢谢大家。


分享文章:中国移动信息技术中心项目总监王娟:全闪存阵列技术规范探讨
转载注明:http://pwwzsj.com/article/cpsdcd.html