印度版“DeepSeek”大年夜模型 Alpie：机能超出 GPT-4o、Claude 等

327 阅读 0 评论 0 点赞

印度 169PI 公司比来宣布的 Alpie 大年夜模型被称为印度版的DeepSeek，今朝已经开源在多个平台，并开放了API。

这款模型只是一个320亿参数的小模型，主打4bit量化，但AI榜单上表示异常强，GSM8K数学榜单上跨越了DeepSeek V3，跟GPT-4o、Qwen 2.5-30B一个档次，略低于Cluade 3.5。

在SWE软件工程榜单上则力压其他大年夜模型，包含Claude 3.5等，表示异常强。BBH榜单上也跨越了GPT-4o、Qwen 2.5、Calude 3.5等大年夜模型，略低于DeepSeek V3。

不过 Alpie 的争议也不少，因为它其实不是印度工程师本身练习出来的大年夜模型，而是DeepSeek-R1-Distill-Qwen-32B二次深度开辟的，是中国开源大年夜模型基本上蒸馏+量化出来的。

如许做的好处不少，比如大年夜幅降低了成本，只有GPT-4o的1/10，显存占用降低了75%，16-24GB的显卡就能流畅运行。

点赞(0) 打赏

暂无评论