2026年5月,我调研了7款主流大模型

发布时间：2026/6/25 18:29:30

本文聚焦各模型5月的最新动向、社区反馈和公司战略以及博主个人的看法。本文原始素材由博主通过多种渠道收集整理客观信息摘自公开渠道个人评价会带有主观色彩请读者自行鉴别。写在前面5月和6月我在医院陪护家人。限于精力我决定把这个名单从15家砍到7家。不是说其他家不值得关注剔掉的那几家未来有值得说的动向我还是会写进来。保留的标准很简单要么是我自己在实际用、觉得对我工作流有价值的要么是我觉得它背后的公司和技术路线有长期跟踪的意义。目前保留的名单里有OpenAI、Google、Anthropic、DeepSeek、Kimi、MiniMax、GLM这7家。在6月底我觉得不能让这个事情停下来所以让AI帮我整理了5月的动态然后再加上我自己的思考。6月的调研会在本月结束后发。国际模型1. OpenAI — GPT 系列最新版本GPT-5.52026年4月23日截至5月底最新版本开源状态闭源最新动向5月OpenAI没发新的主干版本这在过去半年里算比较罕见的。主要动作集中在两块一是Codex Agent全面接入企业版Operator把5.5的多步骤执行能力打包成一个可以直接给企业IT部门托管使用的服务降低了接入门槛二是API层新增了Function Calling优先微调选项让企业可以在自己的数据集上微调出更稳定的工具调用行为。消费侧ChatGPT桌面客户端5月上线了持续代理模式能在后台监听任务进度并自动触发下一步操作这让ChatGPT开始从问答窗口往后台代理的方向迁移。个人评价OpenAI这个月没发新版本但把能力转化成了托管服务这步棋的意义不在技术在于商业化路径开始跑通。对企业客户来说模型能不能用不是唯一的问题稳不稳、能不能集成进现有IT系统才是。OpenAI在做的就是把这些摩擦一个一个消掉。对个人用户我的看法没变GPT-5.5我还没切进来但得承认如果GPT-5.6在6月出来继续压低token成本Claude在中间价位的竞争压力会更大。2. Anthropic — Claude 系列最新版本Claude Opus 4.82026年5月28日开源状态闭源最新动向5月Anthropic主干更新是 Opus 4.8。官方把这次升级定义成一次更稳、更会协作的 Opus 迭代在编码、代理任务、专业工作上都有提升尤其是长程任务的持续性和判断质量更好。Claude Code 同步上线了 dynamic workflows能让模型规划任务并在一个会话里拉起大量并行子代理再回头核验结果对真正的大型代码库迁移和复杂工作流这比单纯把模型做强更重要。claude.ai 和 Cowork 新增了 effort control用户可以自己选择 Claude 在响应里投入多少推理API 侧也更新了 Messages API支持在消息数组里插入 system entries方便代理任务中途改指令、改权限或改环境。价格上Opus 4.8 维持不变fast mode 还更便宜了这说明 Anthropic 这次不是单纯冲分而是在把企业和开发者真正会用到的能力做成产品。个人评价Opus 4.8 更像 Anthropic 一贯风格的延续不靠花活靠把复杂任务做得更稳、更像人。对我来说最有价值的不是某个单项分数而是它把 Claude Code 继续往“能真正托管工作”的方向推了一步。dynamic workflows 这个东西如果跑顺了Anthropic 在企业端的壁垒会更厚因为它卖的就不只是模型而是执行能力和工作流可靠性。对个人用户我还是这样认为Claude 的强项不在便宜而在你把它扔进复杂任务里时它往往最少让你返工。3. Google DeepMind — Gemini / Gemma 系列最新版本Gemini 3.5 Flash2026年5月Google I/O发布Gemini Omni Flash同月发布开源状态Gemini闭源最新动向Google I/O在5月把 Gemini 直接推到了“agentic era”这条线上。Gemini 3.5 Flash 是这次最核心的模型更新主打 agentic coding、长程任务和更快的输出速度Gemini Omni 则把“从任何输入生成任何输出”这件事往前推了一大步先从视频输出开始后面再扩到图像和文本。产品层面Gemini app 变得更主动开始做 personal brief、收件箱和日程的背景管理Android 这边有 Android Halo 这样的新任务空间让用户能看见 agent 的进度Search 也开始把 Gemini 3.5 Flash 的编码和生成能力塞进信息代理和动态界面里。TPU 8t/8i 的双芯片路线也在这次 I/O 被讲得更明白了Google 的逻辑很清楚模型、产品、芯片三条线一起往前推不再只是单点发模型。个人评价5月的 Gemini 让我更确定一件事Google 不是在做一个“聊天模型”而是在做一个覆盖搜索、Android、Workspace、创作工具和代理工作流的系统级能力。3.5 Flash 这种命名变化其实比版本号本身更说明问题它不再只是追求某个单点 benchmark而是更强调行动能力、速度和产品化落地。对我来说Gemini 这条线最值得看的地方不是它单次回答有多聪明而是它有没有可能成为 Google 全家桶里的那个持续在线的中枢。这个方向如果跑通Google 的护城河会非常厚因为它不是靠单独卖模型而是把模型嵌进了用户每天都在用的东西里。国内模型4. 深度求索 — DeepSeek 系列最新版本DeepSeek-V42026年5月正式版去Preview标签开源状态开源最新动向4月的V4 Preview版在社区里被持续反映工具调用不稳定5月初DeepSeek发了补丁版本正式去掉Preview标签社区反馈工具调用稳定性明显改善基本达到生产可用的标准。这个月还有一件被低估的事DeepSeek官方5月正式发布了V4在华为昇腾950PR上的完整性能报告第一次把昇腾与英伟达的推理侧对比数字公开放在桌上。这意味着DeepSeek-华为这条供应链组合在推理侧已经不是将就着用而是基本够打了。个人评价昇腾那份性能报告背后的意义我想多说一句这不只是DeepSeek一家的事这是在证明国内算力独立自主这条路在推理侧已经走通了。对整个国内AI行业来说推理侧的芯片依赖一旦解开后面的护城河会越来越厚而且这个结果是幻方踏踏实实做出来的不是靠PPT吹出来的。技术上V4是扎实的长上下文低算力消耗的组合对Agent时代的基础设施很关键商业上国家队腾讯联合入场意味着它从幻方的技术实验正式进入主流资本叙事。5. 月之暗面 — Kimi 系列最新版本Kimi K2.62026年4月21日5月无新版本开源状态开源有商业限制最新动向5月Kimi没发新版本主要精力在把K2.6的300子代理并发能力往企业侧推进头部量化机构和自动化测试团队陆续公布了接入案例多代理并发调度在真实生产环境里的表现开始有数据可以看了。另外Kimi在5月对外公布了K3的部分技术方向目标突破单次24小时稳定执行时间子代理颗粒度更细预计年底前发布。个人评价K2.6这个月没发新版本但企业接入案例陆续出来其实比发新版本更重要——有人愿意把它用在真实生产里这是能力最硬的验证。K3的24小时目标我认为方向是对的编程和自动化领域真正有价值的任务周期都不短能跑多久是个真正的差异化门槛不是看SWE-bench能说清楚的。6. 稀宇科技 — MiniMax 系列最新版本MiniMax M32026年5月底完成内测6月1日正式发布开源状态M3权重部分公开最新动向M3在5月底完成内测是M2.x以来最大的一次跃升。原生支持图文混合多模态输入在工具调用稳定性和主动性上补足了M2.x长期以来的一个短板。上下文窗口扩展到1M对长文档的理解质量有明显改善。Music 2.6在5月发布了API版本支持根据旋律提示词直接生成完整编曲。MMX-CLI同期更新加了多Agent编排的图形化预览功能工作流设计变得更直观。M3的完整跑分和Coding Plan定价将随6月正式发布同步公布。个人评价在3月份我就吐槽过MiniMax上下文过短的问题M3这次提供的1M上下文补齐了我最在意的短板。4月说如果M3真出来而且带原生多模态MiniMax有机会再上一个台阶。内测阶段的多模态体验反馈比M2.7有质感多了之前M2.7理解图文混合内容的时候有时候会绕弯子。但是M3没有提供highspeed版本这让我有点失望。完整评价等6月正式版跑分出来之后再说。7. 智谱 AI — GLM 系列最新版本GLM-5.12026年4月5月无新版本发布开源状态部分开源MIT协议最新动向5月智谱没有发新模型但有几件事值得记录。4月提价10%之后社区的抵触情绪在5月逐渐平息企业侧新增API接入数在5月反而创了单月新高——资本市场读对了这个提价筛掉了靠免费额度薅羊毛的用户留下了真实有付费意愿的企业客户。GLM-5V-Turbo在5月继续往工业垂直场景推进和几家制造业头部企业的合作案例开始对外公开这条垂直线做得安静但扎实。GLM-4-Flash免费版的调用量在5月继续增长开发者生态的覆盖面在扩大但愿意付费的比例还有待观察。个人评价4月提价之后我说我个人不会切过去5月这个判断没变。但我得承认智谱这步棋走的逻辑是通的——提价筛企业客户资本市场背书这是一条有意识的商业化路径不是碰运气。它可能压根就不打算走通用旗舰正面硬刚Claude/GPT这条路而是往特定行业深度嵌入走这对背靠清华的它来说反而更合理——清华的工科积累在工业、制造、基础科学这些场景里有真正的数据优势和场景理解是别家买不来的。但作为个人开发者GLM目前对我的实际工作流没有不可替代的价值。等它在工程可靠性上再交几份稳定的成绩单我会认真重新评估。写在最后5月整体的节奏比4月缓了一档没有密集的版本轰炸基于当前状态我的个人推荐是Claude 依然是我日常工作流的核心Opus 4.8在复杂任务里的稳定性更加明显如果你也在用Claude Code做长程任务这个月值得切到Opus 4.8。Kimi 是国内长程编码任务的首选没有变化。K2.6的企业接入案例陆续出来有人愿意用在真实生产里才是最硬的验证继续推荐。MiniMax M3 如果你之前因为上下文短一直没认真用MiniMax现在可以再考虑一下了。DeepSeek V4 工具调用稳定之后适合作为大批量任务的成本压舱石。在Claude跑方案设计、DeepSeek跑批量执行这种分工里性价比很高。这期写得比往常简短是因为精力确实有限。6月的调研会在7月发下篇见。

相关新闻

相关新闻

最新新闻

周新闻

日新闻

月新闻