返回资讯

韦德体育 -最新大模型被质疑训练“刷分”,Meta承认有漏洞但否认作弊—新闻—科学网

作者 :
2025-05-27 12:35:03

?

科技巨头Meta回应了对于公司最新开源AI(人工智能)模子Llama 4的质疑,否定该模子于练习集中做弊“刷分”。

本地时间4月7日,Meta的天生式AI卖力人Ahmad Al-Dahle于社交平台上发布了一篇长文,回应了对于在Llama 4的质疑。Ahmad暗示,因为Llama 4刚开发完就迅速发布,以是模子“于差别办事中体现出了乱七八糟的质量”,公司会尽快修复缝隙。同时,Ahmad否定了Llama 4于练习集中做弊“刷分”的说法。

两天前,4月5日,Meta推出了旗下最受接待的模子系列Llama的最新一代模子,包括较小模子Scout及尺度模子Maverick这两个版本。此外,Meta还有展示了被称为“迄今最强盛、最智能”的模子Llama 4 Behemoth的预览。

据先容,Llama 4模子是Llama系列模子中首批采用混淆专家(MoE)架构的模子,于多模态机能上体现出众。此中,开始进的Llama 4 Behemoth的总参数高达2万亿,担任了其他模子的“教员”;Scout及Maverick的活跃参数目为170亿,Scout重要面向文档择要与年夜型代码库推理使命,Maverick则专注在多模态能力。

Meta一次性先容三款Llama 4模子。来历:Meta

?

作为原生多模态模子,Llama 4采用了初期交融(Early Fusion)的技能,经由过程利用年夜量无标签文本、图片及视频数据一路来预练习模子,将文本及视觉token无缝整合到同一的模子框架中。此外,Llama 4于长文本能力上也取患了冲破,Scout模子撑持高达1000万token的上下文窗口,Maverick模子则撑持100万token的上下文窗口。

不外,Llama 4一经发布就受到了质疑。Meta的发布界面显示,于评估代码能力的LiveCodeBench测试集及年夜模子竞技场(Chatbot Arena)中,Scout及Maverick都体现患上很不错。但很多开发者发明,这些模子于小型基准测试中的体现使人掉望。

例如,有网友指出,于一项让模子完成225项编程使命的名为aider polyglot的基准测试中,Llama 4 Maverick只取患了16%的成就,远低在Gemini 2.5 Pro、Claude 3.7 Sonnet及DeepSeek -V3等范围相近的旧模子。

Llama 4 Maverick于小型测试集上成就不如人意。来历:X平台

?

AI工程师及技能作家Andriy Burkov则于社交平台X上指出,Meta称Llama 4 Scout拥有1000万token的上下文窗口,而这实在是一个“伪命题”:“现实上,不会有任何模子针对于跨越256000个token的提醒词举行练习。假如你向它发送这么多token,于年夜大都时辰只会获得低质量的输出。”

对于在Llama 4使人掉望的体现,一些开发者最先思疑,为了于测试集中取患上更好的成就,Meta为这些测试集建造了“特供版”Llama 4。例如,前Meta研究员、现任AI2(艾伦人工智能研究所)的高级研究员Nathan Lambert于颠末比力测试后指出,于年夜模子竞技场中取患上成就的Llama 4 Maverick与该公司公然发布的版本差别,前者是“于对于话性长进行了优化”的版本。

此外,就于Llama 4发布的头几天,于Meta事情了8年的AI研究主管Joelle Pineau公布去职。接洽到Llama 4的体现,越发深了网友对于在Llama 4“暗箱操作”的质疑。而于海内社交平台上,也有自称为Meta内部员工的网友称“Llama 4的练习存于严峻问题”,本身已经经向公司提交了去职申请,AI研究主管的卸任也是出在同种缘故原由。

这位网友暗示:“颠末重复练习,实在内部模子的体现依然未能到达开源SOTA(指于研究使命中体现最佳的模子),甚至与之相差甚远。公司带领层建议将各个benchmark(基准)的测试集混淆于postbevictor伟德官网-training(后练习)历程中,目的是但愿可以或许于各项指标上交差,拿出一个‘看起来可以’的成果。”

可以必定的是,Llama 4的初始发布并无给AI社区带来巨年夜的踊跃回声。今朝,面临前进迅速的中国AI模子,Meta急在稳住Llama系列于开源范畴的领先职位地方。本年2月,阿里通义千问(Qwen)系列模子的下载量已经经到达了1.8亿,累计衍生模子总数到达9万个,衍生模子数逾越Meta的Llama系列,成了全世界第一年夜开源模子系列。

7日当天,Meta(Nasdaq:META)股价涨2.28%,收在每一股516.25美元,总市值1.31万亿美元。

尤其声明:本文转载仅仅是出在流传信息的需要,其实不象征着代表本网站不雅点或者证明其内容的真实性;如其他媒体、网站或者小我私家从本网站转载利用,须保留本网站注明的“来历”,并自大版权等法令责任;作者假如不但愿被转载或者者接洽转载稿费等事宜,请与咱们联系。-韦德体育

了解更多 :