ai-machine-learning-deep-learning-data-storage

ai-machine-learning-deep-learning-data-storage

人工智能(AI)已经是一个热门话题,但它对我们社会和企业的影响才刚刚开始被认识。人工智能和其他形式的机器学习和深度学习将彻底改变商业,使重复性的任务自动化,并加速成果 — 所有这些都是基于庞大的数据集。

开发深度学习应用程序通常遵循以下三个步骤。

  • 数据准备,将大量的 “原材料 “变成可用的数据
  • 模型训练,即训练软件程序从数据中学习一种新的能力
  • 推理,在这里(正如所暗示的),程序将这种新的学习应用于新的数据。
  • 所有这些加起来就是大量的数据增长。行业分析师预测,非结构化数据–文件和对象–在未来几年的容量将增加一倍甚至两倍。这种增长的一大动力是用于人工智能、机器学习和深度学习用例。

这个数据的 “下一个时代 “为IT基础设施的领导者带来了一些明显的挑战。首先,数据集的规模和数量比以前任何时候都要大得多。我们一些开发驾驶辅助技术的客户–本质上是机器学习的一种形式,特别是机器视觉–在短短几年内产生了超过百万亿字节的数据。因此,规模是巨大的。

此外,深度学习应用对存储基础设施的性能提出了巨大要求。处理这些大规模的非结构化数据集需要极低的延迟,关键是在大规模的情况下性能必须是一致的。基于磁盘的存储系统,是基于串行硬盘的,根本无法满足这些要求。这导致了全闪存文件和对象存储的增长,并且随着闪存价格的下降,以及新架构使用非易失性内存传输(NVMe)和远程直接内存访问(RDMA)等内存技术,实现超低延迟的分布式存储架构,这种增长将在未来五年内加速。所以存储系统的性能必须要有数量级的提高。

最后–数据并不生活在一个地方。它是在数据中心之外产生的,它被转移到某个地方进行处理。这可能是在公共云中,也可能是在数据中心中,或者更有可能的是,数据管道的一部分在两个地方都发生。因此,这些数据在其生命周期内的移动和管理是一个主要考虑因素。而且,这些数据集将越来越多地被保存几十年,而不是5年或7年。具体来说,用于数据准备的大型数据集以及模型本身,可能会被保存几十年甚至更久,以备模型需要重新训练。

所有这些因素已经给传统的存储架构带来了压力。世界上大多数的非结构化数据都存储在20多年前设计的系统上。这些系统设计的时候,大多数文件是由人创建的,而不是由设备创建的,数万亿的文件和对象以及exabytes的数据要存储几十年的概念还没有出现。

对于IT基础设施的决策者来说,如果你的企业有数字化转型计划,或基于人工智能、机器学习或深度学习的新业务计划,你的数据存储基础设施可能正在阻碍你的业务发展。它可能会影响到每天依靠这些数据产生结果的数据科学家、内容创作者和分析师的生产力。而且,它肯定会导致你做出不公平的交易,以试图使其发挥作用。现在就采取下一步措施,评估下一代架构应该是什么样子,为下一代人工智能和深度学习应用提供动力。

图片来源:Photon photo/Shutterstock

Eric Bassier是量子公司的高级产品总监。

作者 wolfchild

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注