Taalas 的核心技巧是将大年夜型说话模型 (LLM) 的部分构造 (特别是权重和计算逻辑) 直接硬编码 (蚀刻) 到硅芯片上,做成高度定制化的芯片,而不是像传统 GPU 那样将模型加载内存中运行。
这种硬件级固化的做法让大年夜型说话模型变成“芯片本身就是模型”是以在进行模型计算时可以以极其夸大的速度吐出字符,例如 Taalas HC1 芯片单用户推理速度达到 17000+Tokens / 秒。

便于懂得的比方:
该公司设计特别的构造用很少的晶体管就能存储 4bit 权重 + 做乘法运算,权重不是写在可读写的内存中,而是像 ROM 只读存储器那样由掩膜决定晶体管导通或不导通的方法来硬编码数值。
传统 GPU 将模型加载到内存中,运行时再读取和计算,这种情况下模型像是放在书架上的书本,每次计算时芯片要反复将书本从书架中拿出来、读取、计算、写归去,全部过程加倍漫长并且功耗更高。
H1C 芯片则是将书本中的内容直接刻到芯片的墙壁上 (经由过程晶体管和固定连线实现),芯片通电后,电路本身就长成模型的样子,数据流按照固定路径走而不须要反复读取内存,相当于芯片就是模型本身。

芯片即模型的技巧道理:
说起来这种技巧其实和上时光 90 年代的门阵列异常类似,Taalas 的立异在于应用这种古老技巧接近 LLM 参数稀少性和量化带来的硬连线复杂性。
这种硬件级固化的做法大年夜部分是基于构造化 ASIC 和定制掩膜实现的,核心思路是将模型的权重和计算构造直接用晶体管和金属线蚀刻在硅芯片中。
Taalas 先做了个接近完成的芯片基本 (大年夜约有 100 层金属 / 晶体管构造),大年夜部分逻辑和存储已经做好,只保存最后两层金属 (掩膜) 用来做最终的定制。
而改变这两层金属就能把具体模型的权重和部分数据流路径写进去,这就像是印刷电路板时最后两层铜箔的图案决定具体功能,成本和时光都远远低于完全从新设计芯片。
在实际计算时不须要读取权重、乘法器、加法,而是电路本身就完成了乘法和加法运算,因为电路连线和晶体管已经按照权重设备好,残剩的小部分灵活性则依附 SRAM (高速静态随机存储器),用来存储高低文缓存。
将模型蚀刻到芯片里的劣势:
计算机专业的小伙伴从上面的技巧道理中应当已经知晓这种技巧也存在根本性劣势,那就是模型蚀刻到芯片里就无法更改和进级,也就是这颗芯片只能应用这个模型。
首发芯片 HC1 蚀刻的是 Llama 3.1 8B 版,也就是这颗芯片从流片开端就只能应用这个模型,而今朝 AI 行业成长速度极快,各类新模型层出不穷,这种弗成更改和进级模型的做法就是最大年夜的劣势。
不过 Taalas 称经由过程两层金属掩膜定制芯片全程只须要 2 个月阁下,也就是至少从芯片角度来说设计新芯片运行新模型照样比较轻易的,这应当有助于降低成本,而客户可能须要根据本身的需求一向地购买迭代后的芯片。

发表评论 取消回复