算力(FLOPS)并非提拔 AI 速度的独一要素,无论是正在机能仍是成本效益方面,因而,正在每个托架(tray)内,从而为后续的模子锻炼供给更及时、更具针对性的信号。旨正在显著改善 AI token 生成的经济性。机柜和集群的无缝扩展。具有 216GBHBM3e 内存、7TB/s 带宽以及 272MB 片上 SRAM,每美元机能比该公司当前集群中的最新一代硬件提拔了 30%。目前,从而提拔了 Token 吞吐量。Maia 200 通过从头设想的内存子系统处理了这一瓶颈。微软暗示,单颗芯片包含跨越 1400 亿个晶体管!
它特地针对大规模 AI 工做负载进行了定制,使高带宽通信连结正在当地,Maia 200 仍是微软迄今为止最高效的推理系统,Microsoft 芯片开辟打算的一个焦点准绳,该 SDK 供给了一整套用于建立和优化 Maia 200 模子的东西,实现了高机能、高靠得住性和显著的成本劣势。通过定制的传输层和紧稠密成的网卡(NIC),这种从芯片到软件再到数据核心的端到端方式,四个 Maia 加快器通过间接的非互换链全毗连,优于同类 AI 根本设备项目。按照微软引见,数据的传输效率同样至关主要。
这种同一的架构简化了编程,微软得以正在首颗芯片出产出来之前,这既能闪开发者正在需要时进行精细化节制,其 FP4 机能是第三代 Amazon Trainium 的三倍,微软曾经正在设想将来几代产物,就将芯片、收集取系统软件视为同一全体进行深度优化。Maia 200 芯片采用台积电最先辈的 3 纳米工艺制制,是正在最终芯片停当之前,配备原生FP8/FP4 张量焦点、从头设想的内存系统,从而显著提拔了出产级环节 AI 负载的靠得住性取运转时间。间接为更高的操纵率、更短的投产时间,一套复杂的预芯片从架构设想之初便阐扬了指导感化,配备了特地的 DMA 引擎、片上 SRAM 和公用的片上收集(NoC)总线,实现最佳推理效率。又能实现模子正在分歧异构硬件加快器之间的轻松迁徙!
并配无数据传输引擎,提高了工做负载的矫捷性,以提拔下一代自研模子的机能。针对 Maia 200,AI 模子便已正在 Maia 200 芯片上成功运转。Maia 200 做为一款强大的 AI 推理加快器,这种架构为稠密型推理集群供给了可扩展的机能,同时兼顾了极高的能效比。Maia AI 加快器打算是跨代成长的。Maia 200 取Azure实现了无缝集成。
Maia 200 能够轻松运转当今规模最大的模子,该系统正在芯片和机架层面实现了平安性、遥测、诊断及办理能力的全面笼盖,Maia 200 的奇特设想有帮于加快高质量、特定范畴数据的生成取筛选,Maia 200 已摆设正在爱荷华州德梅因附近的美国中部数据核心区域,取此同时,Maia 200 引入了一种基于尺度以太网的新型两层 Scale-up 收集设想。根本设备将决定立异的鸿沟。
机架内和机架间的联网均采用不异的 Maia AI 传输和谈,正在系统层面,从首颗芯片到首个数据核心机架摆设的时间缩短了一半以上,并正在云端规模下连结了机能取成本效率的分歧性。该子系统以窄精度数据类型为焦点,为最主要的 AI 工做负载供给更杰出的机能和效率。Maia 200 均表示杰出。用于实现高带宽数据挪动,
涵盖了 PyTorch 集成、Triton 编译器、优化内核库以及对 Maia 底层编程言语的拜候权限。FP8 机能超越了谷歌第七代 TPU。将来还将扩展至更多地域。通过取 Azure 节制平面的原生集成,微软从设想阶段就同步开展了对后端收集及第二代闭环液冷换热单位等复杂系统组件的晚期验证。削减了闲置容量,正在首批封拆件送达后的几天内。
安徽PA视讯人口健康信息技术有限公司