苹果公司近期宣布,其多模态AI大模型MM1.5正式推出,该模型基于前代MM1架构进行升级,拥有高达300亿的参数规模。
MM1.5模型继续坚持数据驱动的训练原则,深入探索了不同训练周期中混合数据对模型性能的影响,相关模型文档已在Hugging Face平台发布。
此次推出的MM1.5模型提供了从10亿到300亿的多种参数规模选择,具备图像识别与自然语言推理的能力。
在新版本中,苹果研发团队对数据混合策略进行了优化,显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的性能。
据相关论文介绍,MM1.5在持续预训练阶段引入了高质量的OCR数据和合成图像描述,大幅提高了模型对包含大量文本的图像的理解能力。
研究人员在监督式微调阶段对不同数据类型对模型表现的影响进行了深入分析,优化了视觉指令微调数据的混合方式,使得即便是小规模的模型版本也能展现出出色的性能,实现了更高的效率。
苹果公司还推出了专门用于视频理解的MM1.5-Video模型以及专门处理移动设备用户界面(UI)理解的MM1.5-UI模型。
MM1.5-UI模型未来有望成为iOS背后的核心AI技术,能够处理各种视觉引用与定位任务,总结屏幕上的功能,甚至通过与用户的对话进行交互。