破局大数据存储:高效系统构建的挑战、方法与未来趋势全解析

mysmile 28 0
破局大数据存储:高效系统构建的挑战、方法与未来趋势全解析

大数据环境下的存储系统构建:挑战、方法和趋势

你是否想过,海量数据如何被高效存储和处理?大数据时代,数据爆炸式增长,对存储系统提出了前所未有的挑战。本文将带你深入探索存储系统的构建之道,解析核心挑战、创新方法及未来趋势。

陈游旻, 李飞, 舒继武

清华大学计算机科学与技术系,北京 100084

摘要互联网规模迅猛扩张,全球数据总量呈爆炸式增长。物联网、电子商务等应用对数据存储及处理的实时性要求极高,急需结合新型存储介质,构建大规模、高性能存储系统。本文从闪存存储、持久性内存存储两种方案出发,详解其挑战与现有解决方案,并展望数据中心及存储系统的未来趋势。

关键词存储系统 ; 闪存 ; 非易失内存

破局大数据存储:高效系统构建的挑战、方法与未来趋势全解析

论文引用格式:

陈游旻, 李飞, 舒继武. 大数据环境下的存储系统构建:挑战、方法和趋势. 大数据[J], 2019, 5(4):27-40

CHEN Y M, LI F, SHU J W.Building storage systems in big data era:challenges, methods and trends. Big Data Research[J], 2019, 5(4): 27-40

1 引言

互联网规模急速扩张,全球数据呈现爆炸式增长、海量聚集的特点,大数据正推动信息化进入新阶段。社交媒体、物联网等技术催生大量非结构化数据,从海量数据中提取价值信息愈发困难。大数据不仅更“大”,还需更“快”。传统磁盘平台已难满足新应用的存储与处理需求,存储技术正经历深刻变革。

闪存(flash memory)正逐步替代磁盘,用于构建大规模存储系统。磁盘长期主导外存,但随着闪存工艺成熟,它已在个人设备普及,并将在数据中心大规模应用。据标准性能评估组织(SPEC)调查,闪存在数据中心使用比例从2012年8%增至2017年27%,预计2020年达47%。2018年,英特尔推出基于QLC和三维堆叠的消费级固态盘(SSD),在实现高性能、高可靠性的同时,降低价格、提升容量。闪存具有体积小、能耗低、带宽高、时延低、抗震强、可靠性高等优势。研究人员正着力构建大规模闪存存储系统,以发挥其潜力,适应大数据发展,如清华大学提出的开放通道闪存系统。闪存存储正迎来巨变。

内存价格下降,内存计算成为热点。电子商务、物联网、自动驾驶等应用对数据管理时效性提出新需求。例如,网页服务需在数毫秒内访问数据仓库数千次,以响应用户请求。内存计算依靠大容量内存,将数据全放入内存,实现高吞吐、高时效存储与处理。但DRAM价格昂贵、能耗高、性能不稳,限制其应用。近年来涌现新型非易失性存储介质(NVM),如相变存储器(PCM)、阻变存储器(ReRAM)等,它们价格低、容量大、能耗低、性能接近DRAM,且断电后数据不丢失。这些特性推动研究人员构建基于持久性内存的内存计算平台,如惠普实验室的The Machine、加州大学伯克利分校的FireBox等,内存存储与计算正面临革新。

面对大数据存储技术的巨变,本文从闪存存储、持久性内存存储两种方案出发,详解其挑战与解决方案,并展望未来数据中心及存储系统的发展趋势。

2 告别硬盘:闪存存储系统的构建

存储设备从机械式向电子式演进,是计算机发展的重大趋势。表1比较了磁盘与闪存的性能。闪存带宽比磁盘高1个数量级,时延低2个数量级,IOPS高近3个数量级。当前存储系统多基于磁盘设计,很少考虑其他介质特性。随着闪存广泛应用,如何在大数据环境下高效利用闪存并构建适配系统,成为关键课题。

破局大数据存储:高效系统构建的挑战、方法与未来趋势全解析

2.1 闪存与固态盘

闪存是电子式、可擦除、可编程、非易失的存储器件。与机械磁盘相比,闪存体积小、能耗低、带宽高、时延低、抗震强、可靠性高。在大容量固态盘中,NAND闪存是主要介质,分为SLC、MLC、TLC与QLC,分别记录1、2、3、4个比特数。闪存具有以下独特性质:

● 写前擦除。闪存单元单向可编程,写入需先擦除页面,称为不可覆盖写。

● 读写擦粒度不同。闪存页是读写基本单位,闪存块是擦除基本单位。闪存页容量一般为512 B∼16 KB,一个块含64∼512个页。读、写、擦除性能不同:读平均时延25 ms、写200 ms、擦除1.5 ms。

● 磨损寿命有限。闪存单元能承受的擦写次数有限,称为耐久性。从SLC到QLC,每比特价格降低,但耐久性问题更严峻。

固态盘(SSD)由闪存单元组成,具有内部并发特性。SSD采用闪存转换层(FTL)管理操作,向软件提供与传统磁盘相同的接口,功能包括地址映射、垃圾回收、磨损均衡、ECC校验、坏块管理等。地址映射将逻辑地址映射到物理地址;由于“写前擦除”,FTL采用“异地更新”方式,将新数据写入空闲页,旧页标记无效。当空闲块不足时,FTL执行垃圾回收,有效数据移动引入额外写入量,占用带宽,加速磨损,称为写放大问题。为延长寿命,FTL采用磨损均衡策略,使擦写均匀分布。SSD中,每个闪存页有带外空间(OOB),用于错误检查与纠正(ECC)。当块无法可靠存数据时,FTL将其标记为坏块。

2.2 闪存固态盘存储系统的问题

FTL使现有存储系统可无缝运行在SSD上,但阻碍了性能发挥。基于闪存固态盘的存储系统架构如图1所示。

破局大数据存储:高效系统构建的挑战、方法与未来趋势全解析

图1 基于闪存固态盘的存储系统架构

SSD通过SATA、PCIe或NVMe接口连接主机,抽象为块设备供上层使用;内核文件系统运行其上,向应用程序提供文件接口;FTL管理闪存特性,将I/O请求转换为闪存页操作。FTL加速了闪存普及,但也带来问题:

● 层次间功能重叠与干扰。FTL、文件系统与数据库中存在空间管理、地址映射、垃圾回收等功能冗余,导致I/O低效,互相干扰性能与寿命。

● 系统软件无法感知闪存特性。FTL将闪存抽象为块设备,屏蔽上层对特性的感知,阻碍优化。现有存储软件基于磁盘设计,无法发挥闪存优势或弥补劣势。

● 硬件管理缺乏软件语义。块设备接口屏蔽语义信息,导致FTL处理低效、垃圾回收开销大。例如,FTL分配空间时,缺乏数据属性与热度信息,无法优化布局,冷热数据可能混在同一块,增大垃圾回收开销。

2.3 基于开放通道闪存设备的存储系统构建方法

开放通道(open channel)闪存架构为解决上述问题提供了思路。如图2所示,它移除设备端FTL,消除功能冗余,将闪存内部信息与控制接口导出到主机端,由存储软件直接管理,打破感知屏蔽与语义隔离。存储软件可根据I/O特征与闪存特性进行软硬件协同优化,提升性能,降低磨损。

破局大数据存储:高效系统构建的挑战、方法与未来趋势全解析

图2 闪存设备架构比较

开放通道架构对云计算与数据中心意义重大。上层软件可实现闪存通道级I/O隔离与并发控制,控制垃圾回收时机,按语义优先级调度请求,帮助系统实现可预测I/O时延,降低尾延迟,优化服务质量。目前,百度已部署超3,000块开放通道SSD用于网页和图像存储;阿里巴巴发布自研AliFlash V3并上线;谷歌、微软、脸书、亚马逊也在数据中心应用此设备,以降时延、提服务。

但开放通道架构也带来挑战:接口不兼容现有块设备软件;存储软件需管理底层功能,增加复杂度;新接口为优化带来新维度,如降低管理开销、发挥并发性能、结合I/O特征与闪存特性等。下面从闪存管理架构、文件系统、键值存储系统、分布式对象存储系统介绍构建方法。

(1)闪存管理架构

开放通道设备移除FTL,主机端软件需管理磨损均衡、坏块管理等,增加设计复杂度。现有主机端架构存在接口单一、场景受限、不兼容现有软件栈等问题。解决方案包括:在主机端分解管理功能,提供底层管理与设备抽象;设计细粒度控制接口,扩大优化空间。还可实现主机端FTL,为设备提供块存储支持。

(2)文件系统

基于固态盘的文件系统无法感知闪存耐久性、并发特性,导致功能冗余与冲突。基于开放通道架构,移除FTL,将功能集成到文件系统,消除冗余。针对耐久性,重新设计存储机制:利用OOB记录反向索引延缓刷写;利用块/页状态转换设计空间管理;采用拼接紧凑写机制。这能降低元数据写入,减少写放大,提升性能与寿命。针对并发特性与文件系统冲突,采用日志式结构将数据分段与物理块对应,空间分配采用二维机制,兼顾并发与数据冷热,实现隔离。直接进行垃圾回收,优化I/O调度,发挥并发性能,控制性能抖动。

(3)键值存储系统

在闪存固态盘上,采用LSM-tree的键值存储系统存在三重功能冗余,降低效率,导致写放大。基于开放通道架构,利用LSM-tree日志式更新特征,在用户态直接管理设备,绕过文件系统与FTL,消除冗余。根据硬件特性与读写特征,协同优化:采用“超级块”空间管理降低索引开销;采用可重建静态数据布局,保证并发与一致性;采用动态并发压缩机制,限制后台写请求并发度,降低对读请求干扰。进一步,根据语义优化用户态I/O栈机制。

(4)分布式对象存储系统

基于闪存固态盘的分布式对象存储系统中,对象存储需日志机制保证一致性,“两遍写”影响性能,增加写放大。闪存异地更新特性天然保存多副本,但现有事务机制开销大。基于开放通道架构,根据对象和事务语义与闪存特性,设计高效闪存事务机制,利用异地更新与带外空间,提供低开销一致性更新。使用多线程将无依赖事务并行提交到隔离闪存块,发挥并发性能,降低干扰。感知事务语义,协调I/O请求顺序,降低平均响应时延。

2.4 小结

随着大数据对容量与实时性要求提高,外存性能瓶颈亟待突破。从磁盘到闪存固态盘,实现机械式到电子式的跨越;从闪存固态盘到开放通道设备,从软硬件协同角度提出新思路。基于开放通道设备的存储系统能结合物理特性消除功能冗余,打破语义隔离,提升性能与寿命。

3 不止更快:持久性内存存储系统构建

本节以英特尔Optane持久性内存为例,介绍NVM特性,阐述构建存储系统时的问题,并介绍本地和分布式系统的设计方法。

3.1 非易失内存

英特尔于2019年发布Optane持久性内存,可像DRAM一样通过内存接口被CPU字节粒度访问。单条容量128 GB、256 GB、512 GB。有两种操作模式:内存模式和应用直访模式。内存模式中,DRAM作缓存,扩展内存容量,对操作系统透明;应用直访模式中,操作系统将DRAM和Optane视为独立内存池,应用程序直接管理Optane,优化性能但增加软件难度。据称,SAP HANA引入后,重启速度提升13倍,成本降39%。

测试显示,Optane随机读时延305 ns,比SSD快两个数量级,但比DRAM长3倍;顺序访问时,读时延仅长两倍。读写带宽不对称:最大读带宽39.4 GB/s,写带宽13.9 GB/s,4线程可占满写带宽。

3.2 非易失内存在实际应用中面临的挑战

Optane性能近DRAM,提供持久性存储,不属于传统“金字塔”存储层级,带来新问题:

(1)一致性管理开销高。非易失内存提供主存持久性,但处理器缓存易失,系统故障可能导致数据不一致。64位机器仅支持8 byte原子写入,需日志机制保证一致性,但非易失内存写带宽受限,日志引入高持久化开销。处理器缓存由硬件管理,可能重排序写操作,打乱持久化顺序,需额外刷写指令(如clflush),开销极高。软件开销占比预计达94.09%。

(2)低效的操作系统抽象。操作系统通过系统调用隔离应用程序与内核,但引发现场保存、缓存逐出等开销,使内核态管理持久性内存开销大。通过文件系统管理时,Linux内核的VFS增加粗粒度锁和DRAM缓存,由于持久性内存性能接近DRAM,DRAM缓存无效,反制约性能与扩展性。

(3)分布式软件栈臃肿。为兼容性,现有分布式系统软件部署在本地文件系统上,引入冗余复制。例如,数据读取时需复制到内核页缓存、网络软件栈、用户态缓冲区等。现有系统多采用中断机制,时延在微秒或毫秒级,效率低。

简单部署现有软件到持久性内存,无法发挥硬件特性,甚至导致错误。必须针对特性设计存储系统。

3.3 持久性内存的存储系统构建方法

本节从数据一致性管理机制、文件系统、分布式存储系统阐述构建方法。

3.3.1 新型数据一致性管理机制

为避免传统日志开销,设计新数据管理方式。从软件和硬件角度优化顺序性和持久性开销。

(1)降低顺序性开销的方法。在处理器缓存中提供硬件支持,如微软研究院增加新原语指令,将程序分执行单元,保证单元间顺序约束,单元内可重排序。英特尔设计clwb指令,避免持久化指令依赖和缓存行失效,减少缓存缺失。上层应用可通过内存屏障指令控制顺序。

p>(2)降低持久性开销的方法。设想处理器缓存采用非易失存储器,缩短持久化路径。微软研究院提出全系统持久化(WSP)技术,所有缓存用非易失存储器,后备电源保证掉电后数据传输。软件上,清华大学设计BPPM,日志保证已提交数据持久性,数据写回时无须立即持久化,仅当日志空间不足时才持久化,减少时延。

3.3.2 更精简的持久性内存文件系统

文件系统是基础模块。便捷方式是直接使用外存文件系统管理持久性内存空间,如通过RAMDISK抽象成块设备,EXT4、XFS等可直接部署。但软件层次开销大,无法充分利用优势。近年来专门针对持久性内存设计新文件系统。优化包括:

(1)移除DRAM缓存。Linux内核文件系统为外存设计,VFS管理DRAM缓存数据,但NVM性能接近DRAM,缓存无效,反引入额外复制。EXT4、BtrFS等兼容直接访问(DAX)模式,应用程序直接访问非易失内存中文件数据,无需复制到DRAM缓存。PMFS、NOVA、BPFS等文件系统通过内存映射绕开页缓存,避免冗余复制。

(2)构建用户态文件系统。DAX模式消除DRAM缓存开销,但内核态文件系统仍有现场切换和VFS开销。可行方案是将文件系统部署到用户态,如Aerie、Strata等,将持久性内存空间映射到用户态,通过用户库封装接口,应用程序直接访问,消除操作系统开销。

3.3.3 基于RDMA的持久性内存的分布式存储系统

为满足大规模存储容量需求,需将集群中持久性内存统一组织。远程直接内存访问(RDMA)能在远端处理器不参与下直接读写远端内存,提供零复制数据传输。迈洛斯ConnectX-6系列网卡支持200 Gbit/s带宽和亚微级秒时延。

p>持久性内存和RDMA在存储和网络上提供极高性能。但现有分布式软件设计复杂、层次冗余,软件开销高。清华大学2017年提出分布式持久性内存文件系统Octopus,重新设计软件栈。Octopus将各节点NVM通过RDMA互连,构建统一寻址的持久性共享内存池(如图3所示),客户端可直接通过RDMA读写内存池中文件数据,精简软件逻辑,降低冗余复制。

破局大数据存储:高效系统构建的挑战、方法与未来趋势全解析

图3 Octopus文件系统架构

3.4 小结

非易失内存具有独特硬件属性,带来一致性管理、操作系统架构、分布式软件设计等挑战。现有工作从空间管理、编程模型、索引结构、文件系统、分布式存储等方面深入研究,有效解决问题。

4 未来存储系统发展的若干思考

高并发、低时延、细粒度将是未来应用对数据中心存储系统的主流访问特征,对任务调度、数据索引与管理、架构带来挑战。应对这些问题,从存储计算融合架构及新型数据中心架构展望趋势:

(1)存储计算融合的闪存存储架构。在本地存储中,闪存设备内部并发能力高,内部带宽大于主机与设备间带宽。为减少数据传输,一种思路是将计算卸载到数据所在设备,利用设备内带宽。在分布式存储中,通信和分布式协议开销大,可在网络硬件上进行通用计算,优化系统功能,降低协议开销。核心是近数据处理。当前闪存固态盘中,设备内控制器有计算能力,运行FTL。还可增加FPGA或通用处理单元提升计算能力。可编程网卡和交换机为代表的可编程网络硬件发展迅速,为分布式存储提供新机遇,支持低时延系统。开放通道闪存提供了软硬件协同设计思路,如何结合可编程硬件和存储计算融合思想,实现存储计算功能在存储级、节点级和网络级的合理分布,值得关注。

(2)Rack-Scale的数据中心架构。传统数据中心由服务器节点组建,每个节点含外存、内存、CPU等资源,通过多层网络互连。这种架构资源利用率低、部署灵活性差、难以扩展。新途径是将硬件资源拆分为资源池,通过高速网络互联。扩展不以“服务器”为粒度,而以机架为单位,称为Rack-Scale架构,部署易、升级易、资源管理更灵活。基于此设计存储系统是未来重点。目前Rack-Scale处于初级阶段,主要阻碍是新一代网络互联系统未成熟。内存和CPU拆分后,所有内存访问需经网络,对高速网络设计提出挑战。

5 结束语

大数据存储系统日益难以满足全球快速增长的数据存储需求,“存储墙”问题凸显,大数据不止更“大”,还要更“快”。从传统磁盘到闪存固态盘,实现机械式到电子式的跨越;开放通道闪存设备从软硬件协同角度,提出新思路。非易失内存作为新存储层级,提供内存级性能及持久性,针对其设计更快存储系统,受广泛关注。本文从闪存存储、持久性内存存储两种方案出发,详解挑战与解决方案,并展望未来趋势。想深入了解存储技术前沿?关注最新动态,参与行业讨论,共同推动存储创新。

作者简介

陈游旻(1993- ),男,清华大学计算机科学与技术系博士生,主要研究方向为文件系统、分布式系统。

李飞(1993- ),男,清华大学计算机科学与技术系硕士生,主要研究方向为闪存存储系统。

舒继武(1968- ),男,博士,清华大学计算机科学与技术系教授,教育部长江学者特聘教授,IEEEFellow,博士生导师。近年来主要从事基于非易失存储器件的新型存储系统与技术、基于Flash器件的固态存储系统与技术、网络(云/大数据)存储系统与关键技术、数据存储可靠性等方面的研究工作。

《大数据》期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。

相关问答

大数据储存解决方案?

大数据储存涉及数据量、类型、访问速度、可靠性和成本等多方面。以下是常见方案:1.分布式文件系统...

大数据存储的三种方式?

1.持续加密任何数据对企业都至关重要,通常视为私有且安全。但黑客攻击常被覆盖...

物联网大数据存储方案?

物联网大数据存储需针对时间序列优化,获得高压缩能力、优查询性能...

大数据时代,为何分层存储技术不可或缺?

大数据时代,分层存储技术不可或缺?个人认为,互联网对不同业务数据使用场景需求不同,分层存储满足多样化需求...

传统大数据存储系统的三种架构?

一般分存储层、基础管理层、应用接口层及访问层。存储层是基础,由存储设备构成。基础管理层是核心...

云存储和大数据的区别?

1.目的不同:大数据为发掘信息价值,云储存主要通过互联网管理资源提供服务。2.对象不同:大数据对象是数据,云储存对象是互联网资源...

大数据存储技术是否属于通信?

大数据存储技术不属于通信。存储技术处理和管理数据,通信技术传输数据。虽都与数据相关...

大数据存储数据库分为哪三个类型?

大数据存储数据库通常分:1.关系型数据库:如Oracle、MySQL和SQL Server等。关系型数据库以表格形式存储数据,使用SQL...

2013年全世界存储的大数据容量?

全球大数据储量爆发式增长。根据国际数据公司(IDC)数据...

大数据的三大主要来源-汇财吧专业问答

[回答]大数据概念起源于美国,由思科、威睿、甲骨文、IBM等公司倡议发展。约2009年始,“大数据”成为流行词汇...