印度 169PI 公司比来宣布的 Alpie 大年夜模型被称为印度版的DeepSeek,今朝已经开源在多个平台,并开放了API。
这款模型只是一个320亿参数的小模型,主打4bit量化,但AI榜单上表示异常强,GSM8K数学榜单上跨越了DeepSeek V3,跟GPT-4o、Qwen 2.5-30B一个档次,略低于Cluade 3.5。
在SWE软件工程榜单上则力压其他大年夜模型,包含Claude 3.5等,表示异常强。BBH榜单上也跨越了GPT-4o、Qwen 2.5、Calude 3.5等大年夜模型,略低于DeepSeek V3。

不过 Alpie 的争议也不少,因为它其实不是印度工程师本身练习出来的大年夜模型,而是DeepSeek-R1-Distill-Qwen-32B二次深度开辟的,是中国开源大年夜模型基本上蒸馏+量化出来的。
如许做的好处不少,比如大年夜幅降低了成本,只有GPT-4o的1/10,显存占用降低了75%,16-24GB的显卡就能流畅运行。

发表评论 取消回复