Google宣布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行

236 阅读 0 评论 0 点赞

HuggingFace：https://huggingface.co/collections/google/gemma-4

模型优势包含：

有关模型的更多介绍：

Gemma 4 12B 在标注基准测试中的智能化程度接近Google此前开源宣布的 26B MoE 混淆架构模型，但 12B 版内存请求异常低，可以直接在配备 16GB 内存或显存的花费级笔记本电脑和台式机上运行，让用户可以在本地体验强大年夜的多模态和智能体交互体验。

该模型的凸起优势还包含简化图片、视频、音频输入处理方法，传统的多模态模型平日依附自力的编码器来转换图像和音频，然后再将转换后的表示传递给说话模型，因为这些分别式编码器会增长延迟和内存占用，所以Google应用无编码器架构练习 Gemma 4 12B 模型，让模型可以直接整合音频和视觉输入。

视觉方面：应用轻量级的嵌入模块调换 Gemma 4 视觉编码器，该模块仅包含 1 次矩阵乘法、地位嵌入和归一化操作，这让模型骨干收集可以直接接收视觉处理。

音频方面：Google完全移除了音频编码器，将原始音频旌旗灯号投射到与文本标记雷同的维度空间中。

体验和下载模型：

今朝 Gemma 4 12B 版已经在多个平台供给，有兴趣的开辟者可以在 Ollama 等中直接体验，也可以前去 HuggingFace 或 Kaggle 下载模型权重文件，开辟者还可以应用 Unsloth 进行高效微调定制本身须要的版本。

Ollama：https://ollama.com/library/gemma4

Unsloth：https://unsloth.ai/docs/models/gemma-4

点赞(0) 打赏

暂无评论

Google宣布并开源Gemma 4 12B版多模态模型 可在16GB内存/显存上运行