如何应对大数据雪崩?
里约奥运会近日已落下帷幕,它不仅成功霸占了观众的社交流量,在话题上也是堪称现象级的。而这背后,大数据的成功运用可谓功不可没。从“虚拟奖牌榜”、“全视气球”、“水下计时器”、“基于数据分析的运动员训练方式”到“将寨卡病毒挡在里约奥运的大门之外”, 大数据驱动的里约奥运会被烙上了独特的科技标签。组委会CIO Elly Resende表示,大约有250家科技公司为构建整个基础设施提供了不同程度的技术。显然,“里约印象”的非凡塑造离不开强大IT基础设施的支持。
目前创新互联公司已为1000多家的企业提供了网站建设、域名、网页空间、网站托管运营、企业网站设计、特克斯网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。同样,对企业来说,数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。实时分析是当今企业获得可持续优势的基石。更快获取见解并据此采取行动已日益成为许多企业成败的关键。
随着数据的日益增多,企业需要更快地执行分析,这对当今的数据工作者带来了巨大挑战:你应该如何快速行动,才能确保对数据的见解始终具有价值,而且优于你的竞争对手?哪些方面的投资有助于你在这种数据剧增的环境中保持领先地位?
对所有大数据战略来说,软件必不可少,但仅有软件是不够的。各组织对快速实时决策的需求不断增长,他们必须借助存储和内存领域的创新来实现基础设施转型,才能满足这一需求。
总之,基础设施确实至关重要。为什么呢?这是因为,如果组织不对数据采取任何行动,他们就会损失资金,还会错失竞争机会。IT 团队有必要对支撑新一代大数据解决方案的底层基础设施进行持续投资,但这种投资不应该仅是购买合适的新硬件。企业还需要认真优化和调整现有硬件系统,确保系统具备充足的性能、容量和吞吐量,加快数据处理速度,并推进到规定的分析阶段。
当然,要想利用大数据和先进的分析工作负载(如 Hadoop 和 Spark),各组织需要克服很多困难,其中大的挑战与底层数据有关。具体来说,就是数据的“3 V”:种类 (Variety)、数据量 (Volume) 和速度 (Velocity)。数据的这三项特征都非常重要,其中速度(即不断提升的数据创建和决策速度)尤为重要。
为什么在优化大数据时必须要关注速度呢?这在一定程度上由其他两个 V(即种类和数据量)所致。大数据系统捕获和处理的不仅仅是文本;传感器、视频、音频、社交媒体以及多种多样的非结构化数据都有成为深度分析之瓶颈的潜在可能。当然,目前(更不用说将来)庞大的数据量会让这一问题雪上加霜。如果不密切关注速度以及底层的存储和内存基础设施,大数据项目将无法发挥全部潜力,同时会大幅增加企业的财务和运营成本。
存储速度更快
在 TechTarget 的购买者中,数千位来自北美的 IT 决策者在访谈时都表示,他们最希望大数据存储能够满足延时、容量和带宽这几大存储功能要求。其中,延迟更是大数据计划必须妥善处理的一大问题。从根本上来说,延迟会损害服务器处理更大数据集的能力,导致工作负载瘫痪,并使得完成先进分析工作负载的过程更费时、代价更高昂。事实上,延迟比容量或 IOPS 重要得多,对大数据和其他先进分析工作负载而言尤其如此。
实际上,基于帧的阵列(目前的数据中心基础设施普遍都采用这种配置)采用旋转式硬盘作为存储介质,在功能上已达到极限。在空间、供电/散热成本、CPU 周期和存储容量方面,这已经从根本上耗尽了许多数据中心的能力。而这又会迫使组织设立新的数据中心,通常要耗费数百万美元的成本。
因此,这不断推动着各组织转为使用闪存/固态存储。勇于创新的组织正在重新设计自己的数据中心,将存储从 NAS 设备和 SAN 上移除,转为使用支持闪存的服务器。这有助于减轻数据中心的扩张,减少物理空间占用量,降低供电和散热成本,并提高整体运营效率。
“如果你询问托管大数据的最好方法,大部分的大数据倡导者都会微笑着回答:‘当然是采用闪存啦!’”存储行业分析师 Jon Toigo 表示,“因此,目前,以 Oracle 和 SAP 为首的数据库制造商重新调整其产品也就不足为奇了。Oracle 和 SAP 的大数据设备采用全套闪存和动态 RAM 来托管其常驻内存的数据库。
当数据科学家搜索各个数据块以获取见解时,从 Hadoop 到 Spark 的迁移(无论是两者间相互协作,还是用 Spark 替换 Hadoop)已经对存储和内存基础设施造成了压力。旋转式硬盘速度过慢,无法跟上提取关键见解所需的迭代机器学习工作流。投资混合阵列最初或许能够节约成本,但很可能会导致无法获取关键见解,因为它们需要等待硬盘找到必要的数据。
归根结底,组织需要解决延迟问题,才能更快地找到实时数据并进行处理。显然,欺诈检测、合规性、电子发现和企业监管等工作负载都需要具备“海底捞针”的能力,以防审计失败或数据泄露。但是,面向公众的应用(例如 OLTP、客户自助服务、呼叫中心、CRM、供应链管理和市场营销自动化)还需要兼具精确度与速度。用于执行事务处理和实时分析的混合系统正在蓬勃发展,对它们来说,存储延迟变得至关重要。
如果没有固态硬盘提供的速度,大数据分析就无法为大多数应用提供可持续的竞争优势。
计算速度更快
要充分利用更快速的存储系统,关键步骤之一就是确保服务器的计算中心可以达到数据处理所需的更高利用率。要使服务器配置达到性能目标,同时又不超出预算,针对目标应用和工作负载均衡选择 DRAM 至关重要。
现在,内存/存储分层结构方面出现了一个值得思考的新转折点——持久存储。顾名思义,持久存储位于 DRAM 总线上,可提供极低的 DRAM 延迟,同时可确保数据持久性。由于存储总线存在限制,而且闪存需要更多的访问模式,DRAM 的延迟比速度最快的固态硬盘低了若干数量级。
目前,持久存储解决方案基于 DRAM 和闪存技术而构建,被称作“非易失性 DIMM”(NVDIMM)。这项新技术的优势在于,它最终可将关键数据(就算是断电也不能丢失的数据)迁移到离处理器尽可能近的位置。有效工作在 DRAM(例如标准 DIMM)中完成,但是数据可在断电时快速写入闪存(电容器或电池系统在足够长的时间内为模组供电,以完成备份任务)。如果应用中有经常需要访问或修改的元数据,或者只是应用需要确保指定数据集实现尽可能快的速度,那么这是极具吸引力的选择。
在近期的一篇文章中,一家领先的服务器 OEM 表示,Microsoft 运用范围极广的 SQL Server 数据库通过利用 NVDIMM,可将速度提升两到四倍—性能得到了极大的提升。但是,这一说法最引人注目的一点可能在于,服务器系统才刚刚开始采用 NVDIMM;如果对操作系统和软件应用进行全面优化,可以充分利用内存总线上的持久数据,那么性能将再次获得大幅提升。不过,NVDIMM 提供的性能优势以及服务器市场的竞争格局都在快速推动着这些变化。所有希望在数据分析领域先人一步的 IT 管理员现在都应该考虑如何将时效性最强的任务迁移到基于 NVDIMM 的持久存储系统。
评估并选择一整套适合大数据的存储和内存产品组合
现在,针对大数据和其他先进工作负载革新和重新调整数据中心基础设施非常重要,并且,这一点在未来数年内会变得日益重要,同时也会极具挑战性。但是,这并不一定意味着需要全盘更换。精明的 IT 决策者正在寻找全新的存储和内存选项,它们既要能顺利适应旧环境,又能为针对分析工作负载进行了优化的全新基础设施奠定基础。
美光科技是硅基存储和内存解决方案的全球领导者,一直备受业界赞誉。其旗下拥有丰富的固态硬盘、DRAM 和 NVDIMM 产品系列,对于需要快速、可靠的大数据解决方案的基础设施管理员来说,美光科技是他们理想的合作伙伴。特别值得一提的是,美光科技提供完整的产品线,可让大数据变为“大而快的数据”,而这现已成为以分析为中心的基础设施的基础。
以固态硬盘为例。在开发和提供各种适用于全新存储环境的固态硬盘方面,美光科技一直处于领先地位。使用美光闪存解决方案的一个优势在于,该公司非常了解基础闪存存储介质,因为这个介质就是由美光设计和制造的。
固态硬盘的密度正在快速增加,并且正在超越传统硬盘系统。有了这种容量上的跨越,购买闪存存储比继续使用旋转式硬盘更有意义。此外,与基于 SATA 的传统硬盘相比,基于 SATA 的固态硬盘的功耗要低得多,这可以极大地吸引注重节约成本的购买者。
与此同时,美光科技继续通过最新的 3D NAND 解决方案在闪存存储领域突破极限。这项新技术让容量变成了之前的三倍。3D NAND 的容量更大、性能更高且能耗要求更低,因此非常适合要求最严苛的分析工作负载。
DRAM 是美光科技在 30 多年前推出的首款产品,该公司也一直是世界上大的 DRAM 供应商之一。美光提供采用各种技术和外形规格的 DRAM,并与每个重要的服务器 OEM 精诚合作。此外,美光还提供一整套非易失性 DIMM,该产品系列兼具 DRAM 的速度和 NAND 闪存的持久存储优势,如上文所述。
在选择供应商时,了解其长期研发技能也非常重要。美光科技正在研发多个存储和内存解决方案,可针对未来的大数据工作负载提供极具吸引力的优势。例如,美光科技的全新 3D XPoint™ 技术是一种创新型非易失性存储解决方案;与传统 NAND 技术相比,它可提供低至 1/1000 的延迟和明显更高的耐用性,因此非常适合实时数据挖掘和见解获取。它具有提供非同寻常的新功能的潜力,例如高端企业级存储或高容量持久存储。
结论
随着大数据工作负载在企业内部变得越来越常见且越来越具有战略性,IT 基础设施需要实现根本性的大发展。大数据为获得宝贵的新见解带来了大机遇,但只有当系统能够快速、可靠地访问快速扩张的庞大数据存储内的具体数据时,才不会错失这一机会。
旋转式硬盘一直是数十年来存储基础设施内的基本组成部分,但面对海量的非结构化数据,它们已经无法胜任捕获、索引、解析、报告和处理等工作。各组织正转而使用固态硬盘和 DRAM 进行常驻内存的处理,降低严重影响性能的延迟。
要充分利用各种先进的分析工作负载,最佳方法是使用专为大数据构建的基础设施。美光科技的闪存存储和 DRAM 解决方案已经过优化,可为新一波的分析解决方案提供所需的低延迟和高 IOPS。此外,美光科技不仅可提供降低延迟和克服瓶颈所需的性能,还帮助组织以更具成本效益的方式部署先进的新存储和内存基础设施。
凭借在硅基解决方案领域一直以来的领军地位,以及卓越的研发声誉,美光科技提供可扩展的解决方案集,帮助组织实现实时数据分析、速度、可靠性和性能方面的目标。
作者:Brad Spiers(美光科技存储事业部首席解决方案架构师)
网页标题:如何应对大数据雪崩?
网站路径:http://pwwzsj.com/article/sdpgcg.html