2026-06-12 04:39:02 中国侨网 7
荆楚网(湖北日报网)讯(通讯员 杜轩)5月8日凌晨,百度百度搭子DuMate登顶智能体评测基准PinchBench榜首,搭D打并在前5位中占据3席,连登龙虾厦门新闻网5g超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。双榜首成在另外一项DeepResearch深度研究榜单中,全球DuMate同样位列第一。百度
PinchBench是搭D打OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的连登龙虾多步推理、工具调用和任务闭环能力,双榜首成并从成功率、全球速度、百度厦门新闻网5g成本三个维度综合排名。搭D打榜单显示,连登龙虾DuMate以93.3%和93.2%的双榜首成总成绩包揽前两名。作为对照,全球Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图
超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。
DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图
自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。
上一篇:中国客车在世界客车博览会受关注
国家统计局:经济景气水平延续回升向好态势
新华视点丨2025年国民经济和社会发展统计公报发布,哪些亮点值得关注?
俄谴责美以空袭伊朗 呼吁回归外交途径
焦点访谈丨从集市摆摊起步打磨品牌 走近景德镇的创客们
我国首次按“一区一价”核定跨省天然气管道运价
武汉市民热线入选第十一批全国岗位学雷锋标兵集体
新春走基层丨千里花香递温情 特别的爱给特别的你
据称伊朗防长等约40名伊朗官员在袭击中死亡
陈楚生2026「荒芜之境」上海站圆满落幕 全域升级铸就视听新标杆
“雪龙”号靠港澳大利亚霍巴特 105名考察队员将转机回国
俄谴责美以空袭伊朗 呼吁回归外交途径
镜观中国|影像回眸“十四五”——经济增长 稳健前行
5・20世界计量日,广州举办民生计量主题宣传现场活动
打破“资源沉睡”困局 这座古城用创意唤醒文旅新活力
“春风行动”暖意浓:新春招聘火热 多地精准发力促就业
Over 500 firms sign up for 2026 China International Supply Chain Expo
以热映影片谈艺术创作 叶小纲:朴素真挚是根本
美以袭击伊朗扰动能源市场 霍尔木兹海峡或成油价“生死线”
铁证如山 最新一批侵华日军罪行档案展出
推动一季度经济增长良好开局
金监局:保持对民营企业稳定有效的增量信贷供给
向优!“稳”的格局巩固,“进”的步伐有力,“好”的势头持续!丨图说
伊朗:“历史上最猛烈的进攻行动”即将开始
财经聚焦|年宵花热销,鲜花消费何以“一路芬芳”