重磅!Xinference v1.17.0 宣布:支撑摩尔线程 GPU,多模态才能再进级

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模...

应用介绍

Xorbits Inference(Xinference)是一个 机能强大年夜且功能周全的 分布式 推理框架。可用于大年夜说话模型(LLM),语音辨认模型,多模态模型等各类模型的推理。经由过程 Xorbits Inference,你可以轻松地 一键安排你本身的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开辟者,或是数据科学家,都可以经由过程 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。 Xinference 的功能和亮点有:

  • 🌟 模型推理,易如反掌:大年夜说话模型,语音辨认模型,多模态模型的安排流程被大年夜大年夜简化。一个敕令即可完成模型的安排工作。
  • ⚡️ 前沿模型,包罗万象:框架内置浩瀚中英文的前沿大年夜说话模型,包含 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
  • 🖥 异构硬件,快如闪电:经由过程 ggml,同时应用你的 GPU 与 CPU 进行推理,降低延迟,进步吞吐!
  • ⚙️ 接口调用,灵活多样:供给多种应用模型的接口,包含 OpenAI 兼容的 RESTful API(包含 Function Calling),RPC,敕令行,web UI 等等。便利模型的治理与交互。
  • 🌐 集群计算,分布协同:支撑分布式安排,经由过程内置的资本调剂器,让不合大年夜小的模型按需调剂到不合机械,充分应用集群资本。
  • 🔌 开放生态,无缝对接:与风行的三方库无缝对接,包含 LangChain, LlamaIndex, Dify,以及 Chatbox。

———————————————————————— ————————————————————————

🚀 Xinference v1.17.0 更新日记

⚠️ 重要解释 v1.17.0 是 Xinference v1 系列的最后一个版本。

✅ 本次亮点

  • 🧩 摩尔线程 GPU(MThreads / MUSA)支撑 * 新增对国产 摩尔线程 GPU 的原生支撑,进一步完美多硬件生态适配。
  • 🖼️ 多模态引擎才能周全进级 * OCR:新增 Apple MLX 引擎支撑 * Image 模型:开端支撑 多引擎切换 * Video 模型:新增 GGUF 量化格局支撑
  • 🚀 vLLM 分布式与参数才能加强 * 修复并完美 vLLM ≥ 0.11.0 的多机分布式推理支撑 * 新增 RoPE Scaling 与 MTP(Multi-Token Prediction) 参数支撑
  • 🧠 新模型支撑 * Qwen-Image-Edit-2511 * Qwen-Image-2512

参考

  • 中文:https://xinference.cn/release_notes/v1.17.0.html
  • 英文:https://xinference.io/release_notes/v1.17.0.html 

🌐 社区版更新

📦 安装方法

  • pip 安装:pip install 'xinference==1.17.0'
  • Docker:拉取最新版镜像或在容器内应用 pip 更新

🆕 新模型支撑

  • Qwen-Image-Edit-2511
  • Qwen-Image-2512

✨ 新特点

  • 支撑 enable_thinking 参数开关
  • 新增 摩尔线程 GPU(MUSA) 支撑
  • vLLM ≥ 0.11.0 支撑分布式模型启动
  • OCR 支撑 多引擎,并新增 MLX 后端
  • Image 模型支撑 多引擎切换
  • Video 模型支撑 GGUF 量化格局
  • Sentence-Transformers rerank 支撑 主动 batch
  • 新增 FP4 推理支撑
  • 新增 MiniMax 对象调用(tool call)支撑

🛠 功能加强

  • vLLM 支撑 MTP 与 RoPE Scaling 参数
  • 模型元数据持续更新(DeepSeek、OCR、R1 等)

📚 文档更新

  • 更新 v1.16.0 宣布解释
  • 完美 Docker 应用文档
  • 弥补 vLLM + Torch + Xinference 兼容性解释

🐞 Bug 修复

  • 修复 vLLM embedding / rerank 空缓存问题
  • 修复 worker 反复选择问题
  • 修复 vLLM OCR 模型无法停止的问题
  • 修复模型下载过程中无法撤消的问题

🏢 企业版更新

  • Kubernetes 支撑加强 *
    • 优化在 K8s 情况下的安排与调剂才能
    • 晋升多节点、多副本场景下的稳定性与可保护性
  • KV Cache 架构进级
    • 引入 去中间化、引擎无关的 KV Cache 存储机制
    • 开端支撑 跨引擎的 PD 分别(Prefill / Decode 分别)
    • 为异构推理引擎协同与更高效的资本应用打下基本。

我们感激每一位介入的社区伙伴对 Xinference 的赞助和支撑,也迎接更多应用者和开辟者介入体验和应用 Xinference。

迎接您在 https://github.com/xorbitsai/inference 给我们一个 星标,如许你就可以在 GitHub 上及时收到每个新版本的通知。

点赞(0) 打赏

立即下载

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部