5年前的iPhone也能运行最新的苹果模型
智东西
编译 | 程茜
编辑 | 云鹏
智东西9月1日消息,苹果又公布了大模型研发新进展!
8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。
MobileCLIP2专为零样本分类和检索任务设计,推理延迟在3-15毫秒之间,参数规模在50~1.5亿不等。

此前基于Transformer的大型编码器存在较大内存和延迟开销,为在移动设备上部署带来的挑战。基于此,苹果2023年11月发布端侧多模态大模型MobileCLIP,通过多模态强化训练方法改进模型在端侧的部署效果,MobileCLIP2是其改进多模态强化训练方法后的升级版模型。
论文中提到,与上一代模型相比,MobileCLIP2-B在图像分类基准数据集ImageNet-1k上的零样本准确率提高了2.2%。其模型变体MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14。
此次其改进的多模特训练训练机制采用了改进的教师监督(Teacher Supervision)与字幕数据(Caption Data)来提升零样本性能。
与此同时,在移动端,该训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用。
目前,MobileCLIP2所有模型变体的预训练权重均已公开,开发者可以直接部署和进行基准测试。苹果还发布了数据生成代码,开发者可以基于此使用分布式可扩展处理创建具有任意教师的新强化数据集。
模型的预训练权重链接:
https://github.com/apple/ml-mobileclip
强化训练的数据生成代码链接:
https://github.com/apple/ml-mobileclip-dr
GitHub链接:
https://github.com/apple/ml-mobileclip
Hugging Face链接:
https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47
论文地址:
https://arxiv.org/html/2508.20691v1
一、iPhone 12 Pro Max可跑,强调可复现性、可扩展性MobileCLIP2的核心优势在于实现了相比现有模型参数规模更小、延迟更低,且不牺牲泛化能力、准确性的性能。
在零样本性能方面,MobileCLIP2-S4在iPhone 12 Pro Max上测得的准确率与SigLIP-SO400M/14相当,但参数量为后者的1/2;在延迟方面,MobileCLIPS2-S4的表现优于DFN ViT-L/14,延迟约为后者的约40%。
零样本指标提升可以使模型在未经过特定任务、类别或场景的训练时,无需额外标注数据微调,就能直接将预训练学到的通用知识迁移到未知任务中。

图像分类基准数据集ImageNet-1k上的基准测试结果
MobileCLIP2系列模型在不同延迟条件下,38个数据集上平均性能均为最佳。
从下面的测评中看到,MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达到4倍,但性能相当,MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提高2.5倍。

此外,这一多模态训练机制强调可复现性、可扩展性。目前,MobileCLIPS2的所有模型变体的预训练权重均已公开,支持开发者直接部署和进行基准测试。
其强化训练的数据生成代码支持任意教师集成和分布式可扩展处理,便于开发者为进一步研究和快速原型设计定制数据集强化。
在移动端,该训练机制支持直接在移动、边缘设备上部署,实现零样本检索、分类,具有极低的延迟和内存占用;通过开放数据管道和模块化的教师、标题生成器集成,可扩展到新的模态或数据域。
二、整合教师监督模型与字幕数据,提升多模态模型语义覆盖范围MobileCLIP2的多模态强化训练机制能够将来自多个来源的知识高效地蒸馏到较小的模型中,并基于基础图像-文本对进行操作。
该训练机制整合了教师监督(Teacher Supervision)与字幕数据(Caption Data),旨在训练强鲁棒和高迁移性,同时最大限度降低训练或推理过程中的计算开销。字幕数据指的是与图像、视频等视觉内容关联的文本描述信息。
其核心是通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型,为多模态模型训练增加合成字幕,也就是图像、视频等数据的文本描述信息。
具体来看,首先更强的CLIP教师模型指的是。MobileCLIP2通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的组合构成了教师集成的骨干。
其背后技术细节包括,对每个教师模型独立进行对数尺度(Logits Scale)的精细调整;集成蒸馏在ImageNet-1k验证集上比单教师变体提高了高达2.8%,这证明教师信号聚合对于将强性能压缩到紧凑的学生模型中至关重要;这一精度提升使MobileCLIP2能够以更少的参数数量和延迟,实现与更大参数规模的模型性能相当或超越。
其次,字幕生成教师模型(Captioner Teachers)通过两阶段协议进行升级优化。
第一阶段研究人员在大型DFN-2B数据集上对CoCa风格的描述器进行初始再训练,以提升对图像内容的表达能力。 第二阶段是在高质量标题数据集MSCOCO-123k、MSCOCO-38k上进行后续微调,生成具有增强语义质量和多样性的合成标题。
此外,苹果研究人员的消融研究表明,在精选标题上进行微调可显著提升零样本分类和检索效果。其分析了标题生成的束搜索和采样策略,发现为每张图像生成超过1-2个标题的边际效益不明显,表明策略性多样性优于数量。
这些用于蒸馏训练的合成文本描述,提升了模型的语义覆盖范围,使得MobileCLIP2-B比MobileCLIP-B在ImageNet-1k零样本任务的准确率上提高了2.2%。
结语:苹果改进端侧多模态模型训练机制,降低开发者部署门槛在苹果发布的论文中提到,MobileCLIP2在多模态模型训练机制上的改进,与参数高效微调、实时设备端推理以及从大型多模态教师库中进行可扩展蒸馏等正在进行的大模型发展趋势高度兼容。
同时,苹果将所有模型变体的预训练权重、数据生成代码开源,也可以帮助开发者加速实验、应用于新任务以及适应不同计算环境。
相关资讯
-
郭明錤称苹果2025年推出自研5G基带的iPhone机型
9 月 7 日消息,天风证券分析师郭明錤今天发布简报,表示苹果计划在 2025 年开始,在 iPhone 机型上使用自研 5G 基带。郭明錤此前曾表示,苹果计划将自研的 5G 基带...
-
iPhone 16 已经发布,明年苹果的新手机会是什么样子?
iPhone 16亮相,明年苹果新机会是什么样子?目前,备受期待的苹果iPhone系列新品正式发布并发售。此次,全新iPhone 15系列推出了四款机型:iPhone 15、iPh...
-
全球畅销机型TOP10:哪款手机最畅销?
随着时间来到2025年5月,关于今年第一季度智能手机市场的调研报告开始大量出现。除了整体的市场表现,哪款机型卖得最好也是备受关注的内容。近日,调研机构Counterpoint Re...
-
阴阳师新SSR闻人翊悬建模公开 觉醒前后没变化 小火人变成了技能
阴阳师有关这次和雾山五行方面的联动,涉及到的新SSR式神闻人翊悬方面的建模也正式公开了。简单说说这次的觉醒前后的造型特色还有整体的建模风格,这次还真就是觉醒前后完全没有任何的变化,...
-
国产FPS游戏《重装前哨》明年2月Steam发售
8 月 5 日消息, FPS 合作生存建造游戏《重装前哨》宣布将于 2024 年 2 月在 Steam 发售,官方表示在上线前还将开启 1 到 2 次较大规模的测试,届时的版本内容...
-
一文看清苹果新品发布会:iPhone 15全系灵动岛设计,改USB接口,高端机型首次配置潜望式镜头,国行起售价公布
每经编辑:杜宇美东时间9月12日周二,苹果今年最重磅的新品发布会开幕。本次主要发布了新一代智能手机iPhone 15系列和智能手表。和此前的多方传闻一致,iPhone 15全系改用...
-
TI14首日中国战队Ame五场比赛表现超群,率队强势开启胜利之旅
2025年9月4日,DOTA2第十四届国际邀请赛(TI14)在德国正式拉开帷幕。在首日的瑞士轮赛程中,中国赛区三支战队集体爆发:XG与Tidebound以碾压之势连克冠军热门队伍,...
-
【灵画师】9月最新兑换码全网搜罗!还有隐藏福利通道等你来发现~
今天带来的是【灵画师】9月全网最新最全兑换码汇总!6大职业定位详解,附隐藏福利通道!兑换码体修团队中的铜墙铁壁,终极反伤坦克!他以自身坚不可摧的防御屹立于阵线最前沿,能将敌方施加的...
-
雷竞技消息:TI14中国队表现惊人,XG作业毁灭者锁定Falcons对手
TI14国际邀请赛首日落幕,还得是第一天的中国队,恐怖如斯,TI要是只打一天,中国队早就14连冠了。XG更是充满含金量,赢下的对手分别为Aurora和夺冠热门雪碧,成为了作业毁灭者...
-
今晚终于等到7年神作,网友疯狂刷屏!
文 / 游戏那点事 姜漓、Jimmy今天(9月4日),《空洞骑士:丝之歌》(下文称《丝之歌》)在各大平台正式发售了。你要问玩家对这款苦等了7年的续作渴望到什么程度?就这么说:游戏解...