strongvpn手机

苹果开源 DCLM 模型 抗衡 Mistral、Llama 3 等竞争对手

苹果释出两组小规模开源人工智慧模型,分别对应 69 亿组及 14 亿组参数,强调能与 Mistral、Llama 3、Gemma 等竞争对手抗衡。

苹果机器学习研究团队科学家Vaishaal Shankar稍早於「X」表示,分别释出两组小规模的开源人工智慧模型,均隶属於「DCLM」 (DataComp for Language Models)发展项目,分别对应69亿组参数及14亿组参数,强调能与Mistral AI的70亿组参数规模人工智慧模型,以及Meta提出的Llama 3、Google的Gemma、阿里云的开源模型Qwen2直接抗衡。

同时,Vaishaal Shankar更标榜「DCLM」为真正形式上的开源模型,其中69亿组参数版本是基於OpenLM框架,以2.5兆个词元 (token)进行训练,前後文长度各可对应2K组词元,在大规模、多任务的语言理解 (MMLU,Massive Multitask Language Understanding)测试达63.7%,超过Mistral-7B-v0.3的62.7%表现,并且贴近Meta Llama3 8B的66.2%、Google Gemma的64.3%),以及微软Phi-3的69.9%,另外也以更少算力完成相关测试。

而在14亿组版本,苹果则是与Toyota研究团队共同训练,并且以2.6兆组词元数量进行训练,在大规模、多任务的语言理解测试达41.9%,超过微软Phi-1.5B的35.90%。

We have released our DCLM models on huggingface! To our knowledge these are by far the best performing truly open-source models (open data, open weight models, open training code) 1/5

— Vaishaal Shankar (@Vaishaal) July 18, 2024

另外,苹果方面也在69亿组参数规模的人工智慧模型基础下,将前後文长度支援至8K组词元,在在大规模、多任务的语言理解的表现基本维持不变,意味相比语言模型框架设计,用於训练的资料集设计将变得更加重要。

目前「DCLM」计画以开源形式与业界研究人员合作,目前合作对象包含华盛顿大学、特拉维夫大学与Toyota研究中心,但目前在「DCLM」计画研究项目并不会用於苹果市售产品,避免引发不必要的争议,目前作为研究为主。

老师好我叫何同学

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x