体育游戏app平台纽约大学老师马库斯发出博客-开云 (集团) 官方网站 Kaiyun- 登录入口

你的位置：开云 (集团) 官方网站 Kaiyun- 登录入口 > 新闻中心 > 体育游戏app平台纽约大学老师马库斯发出博客-开云 (集团) 官方网站 Kaiyun- 登录入口

体育游戏app平台纽约大学老师马库斯发出博客-开云 (集团) 官方网站 Kaiyun- 登录入口

发布日期：2026-05-16 23:27 点击次数：151

刚刚，一位 AI 公司 CEO 细细扒皮了对于 Llama 4 的五大疑窦。以致有圈内东谈主暗示，Llama 4 诠释 Scaling 还是杀青了，LLM 并弗成可靠推理。但更可怕的事，等于环球的 AI 跳跃恐将透顶停滞。

令东谈主失望的 Llama 4，只是前奏辛劳。接下来咱们恐将看到 —— 环球表情的变嫌，将透顶阻挠 AI 跳跃！Anthropic CEO Dario 作念出长视频，逐级对 Llama 4 身上的六大疑窦进行了扒皮。

同期，纽约大学老师马库斯发出博客，转头了目下这段时辰 AI 圈的气象。

Scaling 还是杀青；模子仍然无法可靠推理；金融泡沫正在打破；依然莫得 GPT-5；对不可靠的说话模子的过度依赖让天下堕入了逆境。我的 25 个 2025 年展望中的每一个，目下看起来王人是对的。

大说话模子不是科罚之谈。咱们照实需要一些更可靠的门径。

张开剩余89%

大说话模子不是科罚之谈。咱们照实需要一些更可靠的门径。

OpenAI 和 Anthropic 这样的公司，需要筹集资金来资助新模子本后的大限制磨真金不怕火运行，但他们的银行账户里并莫得 400 亿或 1000 亿好意思元，来支抓雄壮的数据中心和其他用度。

问题在于，淌若投资者意象到了经济阑珊，那就要么不会投资，要么投资较少。

更少的资金，就意味着更少的计较，也等于更慢的 AI 进展。

布鲁金斯学会 2025 年的一份施展称，若科研成本抓续高涨，好意思国在东谈主工智能、生物本领和量子计较等要道界限的首先地位可能受到胁迫。据估算，刻下计策若抓续实施五年，好意思国科研产出可能会着落 8%-12%。

在以前的一个采访里，Anthropic CEO Dario 曾被问到：到了如今这个阶段，还有什么不错阻挠 AI 的跳跃？他提到了一种可能 —— 干戈。

没猜想，在这个可能性以外，咱们果然提前见证了系统的另一种辩白。

而 Dario 也提前展望到，淌若出现「本领不会上前发展」的信念，成本化不及，AI 跳跃就将住手。

逐级扒皮 Llama 4

最近闹出大丑闻的 Llama 4，还是诠释了这少量。

咱们很难说，Llama 4 系列三款模子中的两款代表了些许进展，潜入在这个系列的发布中，夸大宣传的水分要比本分的分析多得多。

疑窦 1：长陡立文大海捞针，其实是骗东谈主？

Llama 领有所谓业界首先的一千万个 token 的陡立文窗口，听起来似乎很酷炫。

但是等等，24 年 2 月，Gemini 1.5 Pro 的模子，就还是达到 1000 万 token 的陡立文了！

在极点情况下，它不错在视频、音频和共同文本上，推论惊东谈主的大海捞针任务，随机，是谷歌忽然意志到，大海捞针任务真理绝顶首要。

正如这篇 Llama 4 博客所说，淌若把整个哈利波特的书王人放进去，模子王人能检索到放入其中的一个密码。

不外，这位 CEO 暗示，这些 48h 前发布的效果，不如 24 小时前更新的这个 fiction livebench 基准测试这样进军。

这个基准测试，用于长陡立文的深度交融，LLM 必须将数万或数十万个 token 或单词拼集在一齐。

在这里，在这个基准测试中，Gemini 2.5 Pro 的推崇绝顶好，而比拟之下，Llama 4 的中等模子和小模子，性能极其恶运。

而且跟着 token 长度的增多，它们的推崇越来越差。

疑窦 2：为何周六发布？

这位 CEO 察觉到的第二大疑窦就在于，Llama 4 为何选在周六发布？

在整个这个词好意思国 AI 本领圈里，这个发布日历王人是史无先例的。

淌若贪念论少量想，之是以选在周六发布，是因为 Meta 我方也胆小了，但愿尽量减少东谈主们的精致力。

此外，Llama 4 的最新磨真金不怕火数据浪漫时辰是 2024 年 8 月，这就很奇怪。

要知谈，Gemini 2.5 的磨真金不怕火常识浪漫时辰是 2025 年 1 月。

这就意味着，在昔时的 9 个月里，Meta 一直在使尽满身解数，拚命让这个模子达到圭臬。

有一种可能性是，随机他们本野心早点发布 Llama 4，但就在 9 月，OpenAI 推出了 o 系列模子，本年 1 月，DeepSeek R1 又来了，是以 Meta 的整个推敲王人被打乱了。

疑窦 3：大模子竞技场，究竟有莫得舞弊？

不外，这位 CEO 也承认，尽管全网充斥着对 Llama 4 群嘲的声息，但它的确也展示出了一些坚实的进展。

比如 Llama 4 Maverick 的活动参数目概况惟有 DeepSeek V3 的一半，却获得了相配的性能。

那目下的中枢问题就在于，Meta 究竟有莫得在 LM Arena 上进行舞弊，在测试集上进行磨真金不怕火？

目下，LM Arena 还是马上滑跪，公开了 2000 多组对战数据给公众雠校，而且暗示会从头评估排名榜。

目下姑且按照莫得算，那就意味着咱们领有一个强盛得惊东谈主的基础模子了。

望望这些着实数字，假定莫得任何谜底插足 Llama 4 的磨真金不怕火数据，这个模子在 GPQA Diamond 上的性能（谷歌考据的极其严格的 STEM 基准测试）本色上是比 DeepSeek V3 更好的。

而在这个基础上，Meta 就完全不错创建一个 SOTA 级别的念念维模子。

惟一的问题是，Gemini 2.5 Pro 还是存在了，而 DeepSeek R2 也随时会问世。

疑窦 4：代码很差

还有少量，当 Llama 4 走出泄气区时，性能就会运转狂降。

以 ADA 的 Polyglot 这个编码基准测试为例，它查考了一些系列编程说话的性能。

但与许多基准不同，它不单是眷注 Python，而是一系列编程说话，目下依然是 Gemini 2.5 Pro 名列三甲。

但是想要找到 Llama 4 Maverick，可就很难了，得把鼠标转化很久。

它的得分虽然目不忍见 —— 惟有 15.6%。

这就跟小扎的言论进出很大了，显得相配讽刺。

就在不久前，他还信誓旦旦地料定说，Meta 的 AI 模子将很快取代中级门径员。

疑窦 5：「效果仅代表目下最佳的里面运行」

这少量，一样还是在 AI 社区激发了群嘲。

不才面这个表格中，Meta 将 Llama 4 和 Gemini2.0 Pro、GPT-4.5 等模子进行了比较，数字绝顶漂亮。

但仔细看脚注，却说的是 Llama 模子的效果代表了目下最佳的里面运行情况，是以很大可能是，Meta 把 Llama 4 跑了 5 遍或 10 遍，取了其中的最佳效果。

而且，他们还特意不将 Llama 4 Behemoth 跟 DeepSeek V3 进行比较，后者比它在举座参数上小三倍，在互动参数上小八倍，性能却相似。

淌若从绝望的角度下判断，就不错说 Llama 4 最大的模子参数上 DeepSeek V3 基础模子的许多倍，性能却基本处于合并水平。

还有在 Simple Bench 中，Llama 4 Maverick 的得分概况为 27.7%，跟 DeepSeek V3 处于合并水平，还低于 Claude 3.5 Sonnet 这类非念念维模子。

另外，这位 CEO 还在 Llama 4 的使用要求中发现了这样一条。

淌若你在欧洲，仍然不错成为它的最终用户，但却莫得权益在它的基础上进行构建模子。

马库斯：Llama 4 的惨痛资历标明，Scaling 还是杀青

而 Llama 4 的惨淡推崇，也让 NYU 老师马库斯写出长文，断言 Scaling 还是杀青，LLM 仍然无法推理。

他的主要不雅点如下。

大模子的 Scaling 还是透顶杀青了，这证明了我三年前在《深度学习正在撞墙》中的展望。

一位 AI 博士这样写谈：Llama 4 的发布还是证明，即使 30 万亿 token 和 2 万亿参数，也弗成让非推理模子比微型推理模子更好。

限制化并不见效，信得过的智能需要的是意图，而意图需要远见，这王人不是 AI 能作念到的。

即使 LLM 偶尔能提供正确的谜底，往往亦然通过模式识别或启发式的捷径，而非信得过的数学推理。

比如最近 ETU 团队对于 LLM 在好意思国奥数上恶运推崇的究诘，就透顶击碎了「LLM 会作念数学题」这个别传。

最终，生成式 AI 很可能会酿成一个在经济答谢上失败的居品。

泡沫可能果然要窒碍了。英伟达在 2025 年的跌幅，就还是高出了三分之一。

而 Meta 的 Llama 4 的残忍真相，再次证明了马库斯在 2024 年 3 月展望 ——

达到 GPT-5 级别的模子，将会绝顶珍重。好多公司王人会有访佛模子，但莫得护城河。跟着价钱战进一步升级，许多只会有浮浅的利润。

最终，马库斯以这样的模式转头了我方的发言 —— 大说话模子完全不是科罚之谈，咱们需要一些更可靠的门径。Gary Marcus 正在寻找对缔造更可靠替代门径有酷好酷好的投资者。

参考贵府：

https://www.youtube.com/watch?v=wOBqh9JqCDY

https://garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be体育游戏app平台

https://www.youtube.com/watch?v=wOBqh9JqCDY

https://garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be

发布于：山东省

上一篇：体育游戏app平台算作一种轻质、高强度的热塑性塑料-开云 (集团) 官方网站 Kaiyun- 登录入口
下一篇：没有了

相关资讯

热点资讯

友情链接：