Meta力推QLC SSD:数据中心存储新范式?
社区小助理  2025-05-16 10:01  发布于中国

随着数据量的激增和对能效的更高要求,数据中心存储技术正面临新一轮变革。2025年3月,Meta在其技术博客中提出将QLC SSD定位为数据中心存储架构中的“中间层”,介于传统HDD和TLC SSD之间。这一策略旨在应对HDD性能瓶颈和TLC成本压力,为超大规模(Hyperscaler)数据中心提供新的选择。

HDD的性能瓶颈与分层困境

HDD因其较低的每TB成本和相对稳定的功耗,一直是数据中心冷存储和归档存储的主力。然而,Meta指出,随着HDD容量持续增长(如从16-20TB到更高密度),其I/O性能未见显著提升,导致带宽每TB(BW/TB)逐年下降。这种趋势使得部分“热数据”(频繁访问数据)响应受限,迫使工程师采取两种应对措施:一是将热数据迁移至TLC SSD层以提升性能;二是通过预留空间(OP)存储容量弥补不足。然而,TLC SSD每TB成本较高,难以全面替代HDD,而预留空间则增加了采购和运营成本,与效率优先的原则相悖。Meta认为,QLC SSD可作为HDD与TLC之间的折中方案,填补这一性能与成本的鸿沟。

QLC SSD的技术特性与定位

QLC闪存自2009年问世,因每单元存储4位数据(相比TLC的3位和SLC的1位)而具备更高存储密度,理论上能以更低每TB成本提供大容量存储。然而,其早期发展受限于容量(通常小于32TB)、写入耐久性(Endurance)较弱及成本竞争力不足,普及速度较慢。近年来,NAND技术进步显著改善了这些短板。例如,2Tb QLC NAND Die和32-Die堆叠设计的应用,使QLC SSD密度快速提升。Meta预测,QLC SSD的密度将在短期内开始超越TLC,并在长期内持续领先,从而推动服务器和机架层面的字节密度(Byte Density)提升,同时降低每TB的采购和功耗成本。

性能方面,QLC SSD定位于HDD与TLC之间,适合带宽需求在10-20 MB/s/TB的负载,包括依赖16-20TB HDD性能的场景及当前使用TLC的大型批处理I/O任务。这些任务对性能要求不高但需优于HDD的响应速度,QLC恰好适用。此外,因NAND闪存功耗主要来自写入,而Meta目标负载以读带宽密集型为主,写入需求较低,QLC在能效上表现出色。不过,其写入耐久性仍低于TLC,需针对读写比例较高的场景优化使用。

Meta的QLC实践:硬件与软件的协同探索

Meta已与行业伙伴合作推进QLC SSD部署,其中与Pure Storage的协作尤为突出。Pure Storage的DirectFlash Module(DFM)和DirectFlash软件提供可靠的QLC存储方案,利用现有NAND封装技术可将容量扩展至600TB。此外,Meta与多家NAND供应商合作,计划集成标准NVMe QLC SSD,以确保供应商多样性和成本竞争力。

硬件形态选择上,Meta认为E1.S虽在TLC部署中表现优异,但因尺寸限制NAND封装数量,不适合QLC长期扩展。相比之下,U.2-15mm规格尺寸广泛支持性和可扩展性(容量可达512TB)更具优势,而E3规格尺寸市场分裂(四种变体)和未带来额外价值而被冷落。Meta还设计了兼容DFM和U.2的服务器插槽方案,目标将QLC服务器字节密度提升至现有最密集TLC服务器的6倍。为支持高密度和高吞吐量,系统需配备更强的CPU、更快的内存和网络子系统,硬件协同优化成为关键。

软件适配方面,Meta的QLC系统因高密度和定位于HDD之上,对吞吐量要求远超传统单服务器。为此,软件栈需在多核CPU和多插槽架构上高效分配数据和计算,减少触点并按I/O类型分离。Pure Storage利用Linux用户空间块设备驱动(ublk)和io_uring技术,实现零拷贝(Zero Copy)并与用户空间闪存转换层(FTL)协同;其他供应商的NVMe QLC SSD则通过io_uring直接交互。QLC读写吞吐量差异显著(读取可达写入4倍以上),且读操作对延迟敏感,Meta需调优速率控制器和I/O调度器以避免写操作干扰。

QLC在AI与行业中的潜力

AI应用的兴起推动存储需求向AI推理和大规模模型存储扩展。Meta认为,QLC SSD在这些读密集场景中具备优势,因其高密度和读性能适合频繁更新但不需高频重写的数据集。TrendForce研究也指出,QLC适用于读密集型AI负载、内容分发网络(CDN)和机器学习应用。Solidigm的D5-P5336 QLC SSD测试显示,其在AI训练检查点任务中表现不俗,虽在写密集场景逊于TLC,但在容量和效率上足以支持AI存储流水线部分需求。

行业层面,QLC已获多家厂商关注。Pure Storage的DFM架构证明其可处理主流负载;Solidigm的122TB QLC SSD显示其可缩减3倍机架空间、降低20%能耗和31%总成本;Dell的PowerScale和NetApp的部分平台也已集成QLC。这些进展表明,QLC正从冷存储向主存储演进。然而,行业内也存在不同看法,例如有人认为双磁臂(Dual Actuator)HDD可作为短期内的替代方案,或指出QLC在耐久性与容量间的权衡使其仅适用于读写比10:1以上的场景。

现状、挑战与未来展望

Meta承认,QLC成本虽低于TLC,但尚未达到全面替代HDD的竞争力,其当前优势集中于能效提升和特定场景优化(如读带宽密集型负载)。随着闪存供应商改进工艺(如YMTC宣称QLC耐久性已达TLC水平)并扩大生产,成本有望下降,适用范围或将拓宽。然而,QLC的写入耐久性短板和软件适配复杂度仍是挑战,尤其在混合负载场景中需谨慎评估。

行业专家还提到其他技术可能性,如伪SLC(Pseudo-SLC)模式,通过动态调整存储密度提升性能。这些因素可能影响QLC的市场定位,但Meta的实践无疑为行业提供了参考方向。

结语:QLC的现实意义与待解课题

Meta将QLC SSD定位为数据中心存储新中间层的探索,展现了其在成本、容量和性能间寻求平衡的努力。凭借高密度和能效优势,QLC在超大规模数据中心及AI场景中展现潜力,但其落地需克服耐久性、成本和系统优化的挑战。未来,随着技术成熟和生态完善,QLC或将在存储分层中占据一席之地,值得持续关注。

----------

参考资料:Meta Storage Team. (2025, March 4). A case for QLC SSDs in the data center. Facebook Engineering Blog. https://engineering.fb.com/2025/03/04/data-center-engineering/a-case-for-qlc-ssds-in-the-data-center/

---【本文完】---

文|Andy730公众号

全部回复(
回复
回复
发布帖子
帖子标题
行业分类
场景分类
帖子来源
发送语言版本
可切换语言,在您的个人中心检查译文是否正确
发布文章
文章标题
文章分类
发送语言版本
可切换语言,在您的个人中心检查译文是否正确