AI
计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快
系统实验表明,模型推理分为计算受限的 Prefill 与内存受限的 Decode。
港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理义务
港中文岳翔宇教授团队提出统一多模态推理模型 OneThinker,验证任务泛化能力。
