Chris Mellor | Founder and Editor, Blocks & Files
— Included in Data Dialogue, Issue 002
近年来,不断增长的数据洪流已遍布企业的各个角落,无论员工在办公室还是其他地方。如今,AI的兴起鼓励人们通过统一的界面——AI智能聊天机器人或智能体——来访问这些分散各地的数据。
这两种不同的趋势将如何调和,以便组织(及其员工)能够兼得两者的优势,让我们所有人都能在AI数据空间中生活、工作和放松?
1. 混合计算与云采用的转变
几年前,许多组织开始采用公共云计算;他们的数据和应用程序运行在云服务提供商的分布式IT基础设施上。
这带来了与本地IT不同的业务模式和管理方式。供应商通过通用的虚拟机环境以及采用云数据存储协议来应对这一变化,以便在公有云和本地环境之间迁移数据和应用程序。这被称为混合计算。组织接受了云提供商提供的订阅式业务模式,不再进行永久性购买软件许可。
随着组织及其数据中心的发展和对公有云IT的采用,其数据资产规模——即管理所有这些数据所需的基础设施——也在增长。
关于客户、产品、内部流程、销售、市场营销、运营等的数据库记录激增。文件数量从数千个变成数十万、数百万、数千万乃至数十亿个。
2. 从磁盘到固态硬盘
早期,文件保存在磁盘驱动器上。随后,需要快速访问数据的公司转向了固态硬盘。SSD 比磁盘驱动器更贵,而磁盘驱动器又比用于存储旧数据以供参考的低速归档磁带更贵。存储由此分为不同层级:从快速访问但昂贵的 SSD,到中速中价的磁盘,再到低速但更实惠的磁带。
但是,当拥有数亿甚至数十亿个文件时,让IT人员手动将文件从一个层级迁移到另一个层级是根本不可行的。
3. 使用文件生命周期软件实现数据管理自动化
文件生命周期管理软件的出现实现了这一过程的自动化。它会查看文件被访问的频率,将不常访问的文件从 SSD 迁移到磁盘,再迁移到磁带。用户无需知道文件实际存储在哪里,因为文件数据管理软件会提供一个统一索引,然后从存储位置获取所请求的文件。
这个系统通过一个单一的管理设施——也就是所谓的"单一管理平台"——来管理所有分散的数据。它确切知道文件的位置:在哪个数据中心、办公室或公有云区域,以及位于哪个存储层级上。这就好比一个拥有多个分馆的图书馆维护着一个所有分馆都能看到的中央目录。该数据管理设施还能够将数据移动到需要的地方,并在有人请求时确保其随时可访问。
4. 统一数据空间的概念
数据管理软件可以编排数据的位置或放置,就像公共参考图书馆可以安排将书籍、缩微胶片或期刊从不同的分馆送到阅览室的桌子上。但现在,存储、数据请求和交付都是数字化的,并且不受任何特定物理位置的限制。
我们存在于一种无处不在的虚拟数据空间中。我们可以改变自己的位置,例如从新加坡飞往伦敦,但仍然可以访问我们的数据。事实上,我们可以在飞机上处理数据,并且确信着陆后更新的信息将会同步。
我们操作所处的数据空间最初与有线计算机终端相连,后来与数据中心里的个人电脑相连。它随着有线互联网扩展到我们的办公室和家庭。
然后,移动电话和WiFi永远地改变了世界。我们不再受线缆束缚,无论身在何处都可以连接到自己的数据。智能手表、智能眼镜和其他设备使用我们的手机和笔记本电脑作为连接互联网的中继站。
5. 存储容量与技术的进步
不断增长的数据量要求单个存储设备能够容纳更多数据。
磁带驱动器曾经是这方面的冠军,单个磁带盒可存储15或30 TB的压缩数据。但它们的访问速度较慢,因为必须从磁带开头读取才能找到特定的数据项。更快的磁盘驱动器允许您直接访问磁盘的任何部分,并且其容量已经赶上了磁带盒,现在单个磁盘可存储32 TB或更多的未压缩数据。
然而,即便是磁盘驱动器,也在被固态硬盘超越——SSD的速度比磁盘快得多,因为它直接与存储单元建立电气连接,而无需等待磁盘旋转将数据存储位置带到读/写头下方。我们现在有61 TB的SSD,并且在过去几周内还发布了128 TB的产品。这些SSD由单个NAND芯片构建而成,其容量远超以往;例如,1 TB的容量——比几年前看到的1 MB芯片大了一千倍。
这意味着一个机架的此类SSD可以存储50 PB或更多的数据。存储同样数量的数据大约需要4700个磁盘驱动器,或者说大约11个机架。使用SSD替代HDD所节省的数据中心空间是巨大的,同时所需的电力和冷却也大大减少。
6. AI革命:大型语言模型与数据需求
大型语言模型的发展彻底改变了AI领域。这些模型使AI智能体或聊天机器人能够接受自然语言输入,并生成自然语言响应——从简单的查询回答,到专利申请摘要、医院X光片和CT扫描分析、计算机程序代码、图像甚至视频的总结。尽管其核心是预测下一个词元的统计引擎,但它们的响应之精妙和深度令人惊叹。训练数据集越大,其结果越好。让它们能够访问组织的专有数据,它们就有望增强那些相对简单的低级人工交互,例如初步的销售问询和客服电话。在所谓的"智能体AI"中,人们期待更大的能力,即聊天机器人智能体与聊天机器人智能体对话,以完成多步骤任务。
7. AI数据管道:为AI智能体准备数据
AI智能体需要海量的数据湖,并且这些数据需要快速馈送到训练它们所使用的GPU中。在日常使用中(即所谓的推理),它们也需要数据来生成响应。它们所需的大部分数据以文件和对象的形式存储,然后通过选择相关子集、过滤和移除任何敏感信息,并经过数学变换成所谓的向量,从而使数据可用。聊天机器人智能体搜索向量数据库以生成其响应。因此,需要一个AI数据管道来选择、过滤、转换,然后将向量化的数据馈送给AI智能体进行处理。几乎每个数据库、数据仓库和数据湖仓供应商现在都在构建这样的管道。
8. 华为在AI生态系统中的角色
对于像华为及其客户这样的参与者来说,这是一个非同寻常的时刻。该公司的芯片可以处理AI工作负载,其服务器可以使用存储在OceanStor存储阵列中的数据来训练AI智能体,同时通过管道为处理准备数据,然后由存储阵列及其数据湖软件提供数据用于推理。
其网络设备可以在服务器、存储和终端(个人电脑、笔记本电脑和智能手机)之间传输AI数据。前面提到的超大NAND芯片容量意味着,与几年前相比,其智能手机、平板电脑、笔记本电脑和个人电脑可以存储海量数据。在它们上面运行AI应用程序变得相当可行。事实上,像Perplexity和Grok这样的AI聊天机器人现在已经以智能手机应用的形式存在。很快我们就能够与它们对话并聆听语音回复。
9. AI的未来:无处不在的访问与智能设备
华为全系列的半导体芯片、服务器、网络设备、存储设备、个人电脑、笔记本电脑、平板电脑、智能手机、智能眼镜、智能手表和耳机产品,都能够参与这场即将成为真正AI盛宴的盛会。这将使其具备无与伦比的能力,在我们可称之为"AI数据空间"的领域中识别AI技术和使用趋势,并在比全球任何其他供应商更广泛的产品线中开发和提供AI能力。
Source: Transform magazine, April 2025 issue