OpenAI’s GPT-5.3-Codex expands Codex into a full agentic system, delivering faster performance, top benchmarks, and advanced cybersecurity capabilities.
Anthropic’s Claude Opus 4.6 arrives in Microsoft Foundry and GitHub Copilot, bringing advanced reasoning, agentic coding, and ...
The Canadian machine vision specialist LMI Technologies has announced a “new class” of industrial 2D vision systems that incorporate Nvidia’s Orin NX edge-native AI, resulting in integrated vision ...
消息一出,金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。 至少就官方说法而言,财务分析、研究,以及Office三件套,Claude Opus 4.6都可以玩儿得贼溜。
OSWorld-Verified于2025年7月28日发布,是一次全面重构,修复了原版中300+已识别问题,包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。
在Agent编程评估Terminal-Bench 2.0中取得了最高分,并在“人类最后考试”中领先所有其他前沿模型。 在MRCR v2 8-needle 1M基准测试——大海捞针——中,Opus 4.6得分76%,而Claude Sonnet 4.5只有18.5%。