海豚 发表于 2026-5-29 10:57:00

手机也能跑的模型 MiniCPM-V

手机也能跑的模型
MiniCPM-V 和 MiniCPM-o 是面向端侧高性能与高效部署的多模态大模型系列。MiniCPM-V 专注于在图像、视频和文本输入上的高效视觉语言理解,MiniCPM-o 则进一步扩展到实时端到端全模态交互,支持流式视频和音频输入以及文本和语音输出。目前 MiniCPM-V 和 MiniCPM-o 系列中最值得关注的模型包括:


MiniCPM-V 4.6: 🔥🔥🔥 MiniCPM-V 系列最新、最高效的模型。总参数量 1.3B,性能超过更大参数规模的 Gemma4-E2B-it 的同时,展现出比更小参数规模的 Qwen3.5-0.8B 更高的效率(~1.5 倍左右的 token 吞吐)。基于 LLaVA-UHD v4 提出的 ViT 内提前压缩技术,MiniCPM-V 4.6 将视觉编码开销降低了 50% 并支持4倍/16倍 混合视觉 token 压缩率,可以灵活根据任务需求达到更优的 性能-效率 平衡。该模型可部署于 iOS、安卓、鸿蒙等主流手机平台,并开源配备了端侧部署代码。
MiniCPM-o 4.5: ⭐️⭐️⭐️ MiniCPM-o 系列最新、最强大的模型。总参数量 9B,在视觉、语音及全双工多模态实时流式交互方面的表现接近 Gemini 2.5 Flash,是目前开源社区中功能最全面、性能最强的模型之一。全新的全双工多模态实时流能力意味着输出流(语音和文本)与实时输入流(视频和音频)互不阻塞。这使得 MiniCPM-o 4.5 能够在实时全模态对话中实现“边看、边听、边说”,并能进行如“主动提醒”等主动交互。


参数更小、实力更强,有直接回答和深度推理版,基本上所有个人设备都能跑。手机、电脑、车机、智能家具,不需要高端芯片,微调门槛极低


https://github.com/OpenBMB/MiniCPM-V


https://github.com/OpenBMB/MiniCPM-V-Apps/releases/tag/android-v2.0


软件下载:
https://wwbmk.lanzoue.com/i4glJ3qlmo1i

页: [1]
查看完整版本: 手机也能跑的模型 MiniCPM-V