HuggingFace:https://huggingface.co/collections/google/gemma-4

模型优势包含:
全新同一架构:无需多模态编码器,直接支撑文本、图片、视频和音频输入。
高等推理功能:基准机能接近 Gemma 26B 版混淆专家架构模型,可以在本地供给多步调推理。
内存请求较低:只须要 16GB 的内存或显存即可在本地运行,当然内存越大年夜机能也会更好。
模型开源宣布:该模型采取 Apache 2.0 许可证宣布,Google和社区也供给完美的开辟者生态体系支撑。
猜测选型器:Gemma 4 12B 版配备多种 Token 猜测选型器,可以有效削减延迟。
有关模型的更多介绍:
Gemma 4 12B 在标注基准测试中的智能化程度接近Google此前开源宣布的 26B MoE 混淆架构模型,但 12B 版内存请求异常低,可以直接在配备 16GB 内存或显存的花费级笔记本电脑和台式机上运行,让用户可以在本地体验强大年夜的多模态和智能体交互体验。
该模型的凸起优势还包含简化图片、视频、音频输入处理方法,传统的多模态模型平日依附自力的编码器来转换图像和音频,然后再将转换后的表示传递给说话模型,因为这些分别式编码器会增长延迟和内存占用,所以Google应用无编码器架构练习 Gemma 4 12B 模型,让模型可以直接整合音频和视觉输入。
视觉方面:应用轻量级的嵌入模块调换 Gemma 4 视觉编码器,该模块仅包含 1 次矩阵乘法、地位嵌入和归一化操作,这让模型骨干收集可以直接接收视觉处理。
音频方面:Google完全移除了音频编码器,将原始音频旌旗灯号投射到与文本标记雷同的维度空间中。
体验和下载模型:
今朝 Gemma 4 12B 版已经在多个平台供给,有兴趣的开辟者可以在 Ollama 等中直接体验,也可以前去 HuggingFace 或 Kaggle 下载模型权重文件,开辟者还可以应用 Unsloth 进行高效微调定制本身须要的版本。
Ollama:https://ollama.com/library/gemma4
Unsloth:https://unsloth.ai/docs/models/gemma-4

发表评论 取消回复