世界杯比赛买输赢(中国)2026最新官方网站 建议DAA,李彦宏仅仅开了个好头


篡夺 AI 期间的"界说权"
作家 | 姚赟
起首 | 盒饭财经(ID:daxiongfan)
头图及封面起首 | 网罗及即梦制作
不议论其他,百度在趋势上的判断,一直是激烈的。
5 月 13 日,Create2026 百度 AI 开发者大会召开。大会的开幕式上,李彦宏抛出了一个颇具"非共鸣"意味的判断:AI 期间的度量衡—— Daily Active Agents,"日活智能体数",简称 DAA。
在李彦宏看来,Token 仅仅代表老本并不代表收益,斟酌的是插足而非产出;而 DAA 对应转移互联网期间通费用量衡日活用户数(DAU)。"斟酌一个平台和生态的繁盛,更应该关注 DAA 这个商量,关注有若干 Agent 在给东谈主类干活,并录用截至。"李彦宏示意。

与此相应的是插足端的" Token "。
2025 年末,奥地利开发者 Peter Steinberger 的"周末名堂" Clawdbot(后更名 OpenClaw)悄然上线。没东谈主预见到,到了 2026 年 3 月,其星标数突破 25 万,成为 GitHub 有史以来获星最多的开源名堂。更没猜想的是,这只"龙虾"无心插柳间,为一直拿着锤子找钉子的 AGI 探索出了一条新路。
OpenClaw 将昔日 ChatGPT 代表的"你问我答",升级为了"你说我作念"。于是,Token 调用量就会指数级加多。
黄仁勋激烈地捕捉到了变化,率先建议了" Token 工场"的意见。北京时刻 3 月 17 日凌晨,2026 年英伟达 GTC 大会上,黄仁勋强调,在这个全新的 AI 期间,Token 便是新的基础货币。他还补充示意:生成 Token 的老本与效果平直决定了科技企业的营收与存一火。

黄仁勋的"五层蛋糕",起首:英伟达官网截图
这套叙事逻辑严丝合缝:Token 是 AI 期间的"电力",卖铲子的东谈主持哄骗"用了若干电"来斟酌生态的领域。
对英伟达来说,Token 这一商量没什么问题。
当作全球 T0 级别的芯片供应商,英伟达的 Token 叙事,完全相宜其行业位置。站在芯片和算力基础设施层,Token 徒然越多,GPU 卖得越多。Token,照实是完好意思的收入度量衡。
然而,李彦宏建议的 DAA,对百度来说,也没什么问题。
百度的 DAA,则是站在哄骗和生态层。对哄骗层的企业而言,Token 是老本,只须录用截至才算价值。于是,李彦宏建议 DAA 这么的产出侧的度量衡,相等合理。
起始不等于止境。DAA 的建议,骚动了原有 Token 叙事的固定框架,激勉了更深层的追问和想考。比如,Token 不行,那它是一个完好意思商量吗?Token 叙事与 DAA 叙事各自的逻辑与盲区又是什么?除了这俩,还有哪些评估框架和商量?AI 期间的"北极星商量",究竟该长什么样?

从 Token 到 DAA,总算迈出了第一步
李彦宏建议 DAA,是一种进步。
1 月 19 日,Gartner 发布了一份名为《Token Consumption Is a Misleading Indicator of AI Market Leadership》的文告。文告中明确指出,天然 Token 徒然量常被 AI 厂商用于展示领域和商场面位,但它存在严重的局限性。这些局限性包括,短缺业务价值联系、结构性误导等。
2026美加墨世界杯中国官方网页版但,这并莫得成为 Token 攻城略地的辞谢。
当 Token 被选藏到后,其用量就连忙成为斟酌企业在 AI 上变革进度的行业共鸣。3 月,阿里汲引以"创造 Token、运送 Token、哄骗 Token "为中枢主见的 Alibaba Token Hub 职业群。58 同城的姚劲波曾在罗致采访时示意:当今公司每天徒然接近 2000 亿 Token,很快会突破 3000 亿。他明确告诉团队:Token 用得越多越好,哪怕压力大,58 同城也会不计老本。
同期,Token 的调用情况,也成为国内新模子发布后的贫瘠评估标准之一。
3 月 11 日,Hunter Alpha 悄然上线 OpenRouter,标注为" stealth provider "(隐身提供者),莫得任何厂商标记。后来,Hunter Alpha 一语气数日登顶,引来外界的关注和猜想。19 日,小米认领了 Hunter Alpha,说明其为旗舰模子 MiMo-V2-Pro 的里面测试版块。

起首:OpenRouter 截图
此后,阿里也加入了这种新的发布时势。4 月上旬,一款名为 HappyHorse1.0 的匿名 AI 视频生成模子激勉关注。第三方评测平台 Artificial Analysis 的 Video Arena 榜单上,非凡字节逾越 Seedance 2.0、Google Veo 3 Fast 等视频模子,登顶文生视频、图生视频双赛谈榜首。
不久,该模子被阿里 ATH 旗下革命职业部"认领"。有不少不雅点以为:HappyHorse 的出生,补足了阿里在视频生成模子上的空缺,同期亦然阿里云百真金不怕火平台撬动企业客户的计谋进口,带动平台上的 Token 徒然。
以致,Token 的使用量,成为一种很新的炫富时势。比如,每天徒然若干 Token、你能同期拯救若干个 agent 运行、你的 token throughput(吞吐量)有多高,已成为责任和应对中的话题。
而李彦宏最中枢的反驳点便是把叙事拉入到产出视角:Token 斟酌的是"老本与插足",而不是"收益与产出"。
Token 实质上雷同于电力期间的"耗电量"或流量期间的"耗流量",它反应的是 AI 系统徒然了若干底层算力资源。单纯自满 Token 徒然量,等于在自满"我烧了若干钱、花了若干算力",这只可体现厂商的老本插足,却无法体现 AI 真实为用户创造了若干履行收益。
大模子爆发初期,AI 的哄骗还处于 Chatbot 阶段(聊天机器东谈主),聊得越多天然 Token 徒然越大。但 Agent 期间,当 AI 的扮装形成了一个"数字职工",那观测的点,则形成了它完成了若做事,任务完成度如多么等。
"数字职工",亦然职工。观测职工用耗电量,照实分歧适,但整个 Agent 不分肤浅和完成质地,都抽象为" 1 ",也分歧理。
比如,有两个 Agent:一个 Agent 的作用是,每天定时帮你查一下天气、或者发一条晨安致意的;另一个则能够接入企业 ERP 系统,全自动分析库存、零丁向供应商下订单并跟进物流。
在 DAA 的统计口径下,这两者孝敬的日活都是" 1 ",这明显遮蔽了两者在算力徒然、工夫壁垒和营业价值上广泛的规模。
同期,李彦宏建议 DAA 的初志是强调"截至录用",但 DAA 这个商量自己只斟酌了"活跃度"。
比如,要是一个 Agent 每天被叫醒,但一直在产生 AI 幻觉、输出垃圾信息,或者在实践任务时堕入了死轮回。从商量上看,它可能徒然了大都 Token,也孝敬了一个完好意思的 DAA,但对用户来说,它不仅莫得录用截至,反而帮了倒忙。
李彦宏建议的 DAA 惩办了"出勤率"的问题,也有用地把内行的选藏力从"卷模子参数、卷 Token 徒然"的武备竞赛中拉了出来,转而关注哄骗与落地。但对真实要付账单的企业来说,光是出勤是不够的。

走出"活跃"陷坑,还有好多第三遴荐
当英伟达说"万物皆 Token ",百度说"万物须录用"时,还有一群商量不在这场营业叙事争夺战中。
2024 年 6 月 17 日,Sierra Research 与普林斯顿大学采集团队在 arXiv 上投下了一颗深水炸弹—— τ-bench(Tau-bench)基准测试。
τ-bench 与主不雅的东谈主类打分不同,它通过对比对话收尾后的数据库最终情景与预期的主见情景来客不雅判定任务是否得手。在测试中,它不再只保养一个 AI 智能体某一次任务得手了莫得,而是通过一语气追问,检会"一语气 k 次任务,它能不成一次都不搞砸?" 。

Pass^k(一语气 k 次全得手概率)是其始创的商量。

这个商量的严格进度,来自一起马虎的数学题。比如,一个单次得手率 90% 的智能体,乍听起来非凡可以。但要是让它一语气零丁完成 8 次任务,要求全部得手?谜底:0.9^8 ≈ 43%。一语气 20 次呢?约 12%。
它反应的是,智能体在面对对话速即性时的可靠性与一致性。对企业哄骗而言,偶尔的满分远不如连接的正经发扬贫瘠。
而其的测试环境亦然真实的营业场景:航空票务系统和零卖客服。截至走漏,即使其时最先进的 GPT-4o,在航空领域的单次得手率也不及 50%。
Anthropic 很快针对 τ-bench 的挑战,作出了恢复。
2025 年 3 月前后,Anthropic 在联系的工夫著作中,明确议论了怎样通过引入自主想考关节来惩办 Agent 在处理复杂、多设施任务时的可靠性问题。
同期,为在 τ-bench 的 Pass^k 商量上取得突破,Anthropic 在 Claude 模子中引入了"自我反想(Self-reflection/Self-correction)"和"扩展想维链(Extended Chain-of-Thought)"机制,以提高一语气得手的恬逸性。
这标明,Pass^k 已从一个"过后评估"的商量,演变为一个"预先行者动"的研发主见。
关于 Token 叙事和 DAA 叙事来说,τ-bench 都是一个有劲的修正:它告诉英伟达,Token 徒然再多、跑得再快,不等于跑得稳;它也告诉百度,DAA 再多、录用次数再高,不等于录用质地可靠。单次可用不是身手,一语气可靠才是门槛。
如 τ-bench 的 Pass^k 这么的商量,还有好多。
比如,同为斟酌任务录用与全都可靠性评估的商量。Pass^k 外,还有 TGC/GCR(任务主见完成率)、MTR(多步任务韧性)。
普林斯顿等论文《τ-bench》建议 Pass^k,指出 Pass@k,即试 N 次对 1 次就行,是自欺欺东谈主,真实寰球要求极高的恬逸性。
白皮书《Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents》中建议了 GCR 和 MTR,则强调不管 Agent 中间怎样想考,必须扛住多设施插手,录用最终截至。

而以上,还仅仅属于产出导向的工夫商量。

各评估量划导向与惩办问题情况,起首:公开论文概括
当 Agent 进入企业分娩环境,不成不计代价地追求"得手率",必须在多个维度之间作念出妥协和均衡。
要是你是某企业的采购,当今需要采购某 AI 联系的家具。"聪惠度"可能是其中一个贫瘠商量,但更敬重的是概括性价比。比如,2026世界杯比赛买输赢中国官网一个为了写对一段代码而徒然 10 好意思金算力、运行 5 分钟的 Agent,对比起来就不具有什么上风。
于是,论文《Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems》中,给出了一个中枢论点:要是仅死磕"准确率(Efficacy)",就会导致算力老本高出 4.4 倍到 10.8 倍。CLEAR 框架能更好地瞻望真实环境中的部署得手率。
CLEAR 框架内,包含了 Cost 老本、Latency 蔓延、Efficacy 遵守、 Assurance 保险、Reliability 可靠性等概括多维商量。
将来,连中层经管都是 AI,可能还要观测多智能体网罗之间的团队相助,观测他们怎样开会。于是,Collaboration Score(相助评分)、AIx(自主性指数)也已在议论中。
天然,最终营业的事,如故要总结到营业,整个的家具都将濒临一个终极灵魂拷问:这玩意儿到底能不成帮公司省钱或者赢利?alpha-value(Alpha 经济价值商量)、ROAI(AI 投资酬报率)、BIE(营业影响效果)就会在这个维度出现。
再看上述度量衡,不难发现,从黄仁勋的 Token 到李彦宏的 DAA,或者 τ-bench 的 Pass^k 以及 ROAI,都在叙述一件事——不同扮装正在给出不同的度量衡妥协说。

不同对应扮装和产业位置,起首:公开信息及论文概括
莫得一种"全能商量"能同期骄气整个东谈主的诉求。
AI 价值的斟酌,正在从一个"单点问题"演变为一个需要多维度协同的"评估网罗"。Token 和 DAA 分裂收拢了输入与输出这两个角。而真实的"北极星",概况得在 AI 这张舆图伸开过泰半,才能模糊明晰。

AI 期间的北极星悖论
演讲中,李彦宏将 DAA 与 DAU(日活用户数)进行了绑缚一语气," DAA 对应转移互联网期间通费用量衡日活用户数(DAU)。"
潜台词便是,DAA 是 AI 期间的 DAU。
照实,互联网的得手,很猛进度上归功于它找到了一个完好意思的北极星商量:DAU。它是选藏力的代理东谈主,是告白变现的分母,更是网罗效应的重力中心。
但在 AI 期间,这个刻度失灵了。本年 3 月,盒饭财经在《DAU 信徒的薄暮》一文中就 DAU 与 AI 期间的不适配进行了分析。
互联网黄金期间,DAU 险些是营业价值的同义词。而这开发在几个相等通晓的假定之上:
第一,它是营业变现的底座。在互联网的营业模式里,险些整个的收入公式都长这么:
告白收入 ≈ DAU × 东谈主均使用时长 × 告白加载率 × 千次曝光单价
电商收入 ≈ DAU × 改革率 × 客单价
游戏收入 ≈ DAU × 付费率 × ARPU 值
在这个公式里,DAU 是一切的基础。东谈主来了,才有后续的时长、曝光和改革。
也便是说,互联网的营业模式开发在"流量 - 告白 / 升值"上,用户活跃是价值起源。互联网期间,公式是:总价值 ≈ DAU(分母)× ARPU(东谈主均产出值)。这个公式明晰、可审计,DAU 是营业换算的基准。
而李彦宏设计的是"每个智能体录用 = 一个录用单元的价值",从而推算产业领域。它的隐含公式是:产业总价值 ≈ DAA × 单元录用价值。这是想为 AI 期间创造一个雷同" ARPU "的野心基石。
第二,能体现用的粘性与习尚,直不雅体现用户对你有多上瘾。DAU 里的" D(Daily)"是最致命的,它斟酌的是习尚。要是一个 App 的 MAU(月活)很高,但 DAU 很低,评释用户仅仅偶尔想起你,如个税 App、订票 App;要是 DAU 很高,评释用户"长"在了你的家具里。
这种"日频"的依赖,组成了极高的竞争壁垒,让敌手极难挖走用户。这亦然互联网后期,为什么内行一直在说"高频打低频"是一种竞争壁垒。
第三,它是最马虎的"共鸣"。这是"北极星"最中枢的作用:让公司迤逦力出一孔。对家具团队来说,DAU 是斟酌功能成败的最终标尺。你作念的更正,是把东谈主引来了,如故把东谈主斥逐了?对工夫团队来说,高 DAU 意味着高并发、高负载,恬逸性便是生命线。工夫优化的平直主见便是守旧更大的 DAU。
不管是递次员、家具司理、CEO 如故投资东谈主,不需要任何复杂的解说,都能平直明白"今天有若干东谈主用了咱们家具"的价值。
第四,它界评释晰,不易作秀。转移互联网期间,DAU 之是以被奉为神谕,是因为它收拢了一个不可逾越的物理现实:东谈主类的时刻是有限的。全球 80 亿东谈主口,每东谈主每天只须 24 小时,DAU 斟酌的是对这种稀缺"选藏力资源"的占有率。
"一个零丁用户今天是否活跃",是可以通过开采 ID、账号等技能客不雅、精确统计的。它马虎、独一,且由于绑定了真实身份,极难被大领域注水。
基于以上,要是要找到雷同 AI 期间的 DAU,简陋需要具备以下特色:
1. 产出导向,而非插足导向。这与 Gartner 文告所强调的中枢原则一致——商量必须斟酌"竣事了什么",而非"徒然了什么"。北极星商量必须站在价值创造的一端,而非资源徒然的一端。
2. 与营业变现平直挂钩。告白收入 ≈ DAU × 东谈主均使用时长 × 告白加载率 × 单价。DAU 的增长平直意味着营业价值的增长。在这个公式里,DAU 是分母,亦然底座。
3. 全员可对皆。家具优化提高 DAU、工夫保险守旧 DAU、商场拉新孝敬 DAU,全公司迤逦的勤恳都能积存到销毁个数字上。它通过提供一个协调的标准,惩办了部门之间主见不一致的问题。
4. 抗舞弊的博弈性。客不雅可审计,界评释晰不易被掌握,它必须让"刷量"的老本高于"创造价值"的收益。
5. 价值可加总。一个 DAU 便是一个 DAU。不管是北京的用户如故上海的用户,不管是早上登录如故晚上登录,在计数上都是" 1 ",单元协调,可以宽心性加总、相比、名次。
当咱们用 DAA、Token 或者上述学术论文中提到的商量,来套用这套逻辑时,悖论出现了。
最先,DAA 短缺"生理红线"。一个东谈主只关联词一个 DAU,但一个开发者可以举手之劳地生成一万个智能体,并让它们在后台彼此"活跃"。要是 DAA 成为独一的北极星,咱们很快就会迎来一场数字寰球的"通货推广"。
同期,DAA 在"价值可加总"这一条上碰到了致命的挑战。销毁个 Agent 被绽放和它在用户的真实责任中连接录用截至,两者创造的价值差好多。
在"客不雅可审计"层面,DAA 相似问题重重。
什么是"一个得手录用"?什么是"一次任务闭环"?要是界说权合手在每个企业我方的手里,DAA 就不可能成为像 DAU 那样可以跨公司、跨行业相比的公允标准。这么的布景下,谁界说了"录用",谁就界说了"价值"。
其次,前沿论文中,如 alpha-value 或 CLEAR 这么的硬核商量天然精确,却输在了"共鸣老本"上。它们像是"体检文告",而不是"考试分数"。一个优秀的北极星商量必须具备极低的一语气门槛。企业落地需要的是一个马虎、焦灼、能平直印在财报上的数字,而不是一套复杂的、需要专科实验室才能测算出来的得手率模子。
至此,咱们可以为这场"界说权之争"画出一个明晰的棋局了。
黄仁勋的 Token 叙事骄气了谁?骄气了英伟达和芯片产业链,Token 徒然越多,GPU 卖得越多。但 Gartner 照旧宣判:Token 对斟酌 AI 商场指点力有误导性。

黄仁勋,起首:视频截图
李彦宏的 DAA 叙事骄气了谁?骄气了哄骗平台和生态商,DAA 越多,生态越繁盛。但价值可加总的缺失,使 DAA 更像一个"主见性旗号"而非"可操作的司帐准则"。
学术界的 Pass^k、相助评分、ROAI 骄气了谁?骄气了工程师、架构师和 CFO 各自的需求。但它们各自只覆盖了北极星多项条目中的一两项。

"完好意思的标准"不时出当今结尾
DAU 并非一运转就存在。
互联网初期,斟酌网站价值的标准相等马虎焦灼,主要关注"曝光"和"内容消费量"。比如,最早的 Hits(点击量),一个页面包含 10 张图片,用户绽放一次就产生 11 个 Hits(10 个图片 +1 个页面)。
但这极易刷量。
随后,出生了略微科学一些的 PV(页面浏览量)。派别期间,更多的 PV 意味着可以展示更多告白位。其时的中枢逻辑是"得流量者得天地",斟酌的是内容被"看"了若干次,而非用户的意愿。
21 世纪初,互联网从派别期间迈向应对期间。这迫使内行再行想考什么才是家具价值的中枢。以 MySpace 为代表的 Web 2.0 公司,中枢机划是注册用户数,以为"注册的东谈主越多,平台越得手",这导致平台上充斥着大都无东谈主使用的"僵尸账户"。
在此布景下,Facebook 进行了一场环节的瓦解战。
2004 年汲引之初,Facebook 将中枢机划从"注册"转向了活跃,里面最关注的不是新增注册量,而是 MAU(月活跃用户数),即有若干东谈主真实回来使用了。最终,Facebook 凭借这个正确的"北极星商量",完成了对 MySpace 的丽都逆转。
跟着行业的发展和企业案例的加多,互联网的这套商量更加明确。
2007 年,500 Startups 首创东谈主 Dave McClure 建议了增长模子" AARRR 模子",明晰地展示了从用户得到到最终变现的历程。2010 岁首,"增长黑客之父" Sean Ellis 建议了"北极星商量"的意见。他强调,企业必须找到独逐一个能捕捉家具中枢价值的商量,指引全公司朝销毁主见勤恳。

从此,行业不再骄气于单一数字,而是运转系统性地一语气整个这个词用户生命周期。
直到 2012 年后,转移互联网期间透顶爆发,中枢机划运转在不同场景下裂变。DAU、MAU 成为通用标尺,时长、GMV 等商量在业务的分化中出现。同期,如抖音这么的短视频、内容 App 的中枢机划演变为用户使用时长;如好意思团、淘宝这么的电商、糊口管事 App 则更敬重订单交往额(GMV)或支付笔数。
在东谈主类经管学也好,互联网的发展史也好,从来莫得一个商量是天生完好意思的。DAU 曾因注水被质疑,KPI 也因僵化一直被诟病,但它们都在特定的历史阶段,为暗昧的营业寰球提供了极其珍贵的"笃定性"。
那么,AI 期间,竟然需要一个雷同 DAU 的商量吗?无论是增长黑客、北极星商量,如故" AARRR 模子",都是基于互联网的实践总结得出。基于互联网的素养,去寻找 AI 期间的斟酌单元,是否亦然一种不识时务?
回到当先的争论:李彦宏建议的 DAA 完好意思吗?明显不是。
正如咱们在论文和底层逻辑中探讨的那样,它依然带着流量期间的思路,濒临着子虚繁盛与量化不均的挑战。但在 AI 产业的漫长演进中,"完好意思的标准"不时出当今结尾,而"正确的主见"需要有东谈主在迷雾中率先划劣等一根洋火。
参考贵府:
1.《Token Consumption Is a Misleading Indicator of AI Market Leadership》,https://www.gartner.com/en/documents/7346930
2.《盲测"屠榜"、实测祛魅:Happy Horse 口碑分化 AI 视频三强"杀疯了"》,逐日经济新闻
3.《Gartner:Token 徒然是斟酌 AI 商场指点力的误导性商量》,产业家
4.《Token 经济学:AI 期间的新货币战斗》,硅谷 101
5.《用若干词元(Token),要被写进工资条了》,中国企业家杂志
6.https://github.com/sierra-research/tau-bench
7.《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》
8.《Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents》
9.《Towards a Standard, Enterprise-Relevant Agentic AI Benchmark》
10.《Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise
Agentic AI Systems》
11.《李彦宏:DAA(日活智能体数)是 AI 期间的度量衡》世界杯比赛买输赢(中国)2026最新官方网站,百度