[go: up one dir, main page]

谷歌 SRE 重磅白皮书:当 AI 自动写出 10 倍代码,谁来阻止系统崩溃?

本文永久链接 – https://tonybai.com/2026/06/15/google-ai-in-sre

大家好,我是Tony Bai。

整个软件工程界正在经历一场由生成式 AI 引发的“效率大爆炸”

随着 GitHub Copilot、Claude Code、Codex 以及OpenClaw、Hermes等各类AI Agent 的普及,企业编写代码、构建功能并将其推向生产环境的速度,正在以 4 倍到 10 倍 的速度疯狂飙升。

然而,在这场高歌猛进的效率狂欢背后,软件工业最脆弱的防线——系统稳定性(SRE, Site Reliability Engineering),正在面临前所未有的毁灭性挑战。

传统由人类主导的 Code Review、基于静态监控指标的告警排查,在“机器以微秒级吞吐代码”的时代,已经彻底沦为杯水车薪。当代码提交量和部署频率暴涨 10 倍,意味着系统故障和未知黑盒技术债的涌入速度也暴涨了 10 倍。

为了应对这场“AI 带来的生产力过载危机”,谷歌 SRE 团队于近日发布了一份极具颠覆性的系统级白皮书:《AI in SRE: How Google is Engineering the Future of Reliable Operations》。

在这份白皮书中,谷歌首次向外界披露了其内部正在运转的、以 Agent 编排与闭环控制(Closed-loop Control)为核心的下一代自愈式运维系统。


图:可由AI改进优化的SRE各个环节

今天,我们就来深度拆解这份代表着全球顶级运维水平的技术白皮书,看看谷歌是如何在 AI 时代,重新定义系统可靠性边界的。

为什么 AI 编码越快,运维死得越早?

谷歌 SRE 团队在白皮书的摘要中开门见山地指出:Site Reliability Engineering 正处于一场范式转移的阵痛中。

传统 SRE 的工作模式(SLO 定义、错误预算、消除琐碎工作)是建立在“人类编写代码的速度有限”这一物理前提下的。当 AI 充当了代码放大器,系统复杂度的膨胀速度已经远远超出了人类的阅读和心智承受极限。

谷歌提出了 AI 在运维系统中的 五个自治级别(SRE AI Autonomy Levels)

在 L0 和 L1 阶段,人类还是绝对的“消防员”。但面对海量的机器代码,人类的响应时延(以分钟或小时计)在微秒级的故障蔓延面前毫无抵抗力。

谷歌认为,未来的 SRE 必须快速向 L3(高度自治)甚至 L4(完全自治)推进——即让 AI 智能体在无需人类确认的情况下,自主检测、诊断并安全地执行线上变更。

但问题是:谁来保证 AI 智能体本身不会“抽风”? 一旦拥有自主执行权的 AI 智能体做出了错误的决策(例如在流量高峰期错误地清空了整个集群的负载),其造成的灾难(Blast Radius)将比人类操作失误大上千倍。

谷歌 SRE 的核武器:三大内部 AI 运维王牌组件

为了将 AI 安全地引入生产环境,谷歌在内部研发并上线了三套极具系统美学的底层 AI 平台。

1. IRM-Analyzer:将人类“救火轨迹”转化为黄金训练数据

AI 智能体要学会如何排障,首先需要向最优秀的人类 SRE 学习。但人类在排障时的行为是极其零散且非结构化的(躺在 Slack 聊天记录里、GVC 语音里、或者手动的命令行里)。

为此,谷歌开发了 IRM-Analyzer(事件分析平台)

IRM-Analyzer 能够自动将零散的 Slack 聊天、日志报错、监控曲线,自动提炼并拼装成结构化、可复现的人类排障轨迹(Human Trajectory)。

IRM-Analyzer 利用大模型,能够将一场长达数小时、涉及数十人的混乱救火过程,自动解析、过滤、去噪并聚合成一条精确的时间线(Timeline),标明:什么时候观察到了 SLA 异常、什么时候执行了 canary 排水(Mitigation)、什么时候验证了服务恢复。

这条高纯度的时间线,成为了训练 AI Operator(智能体运维官)的 “黄金数据(Golden Data)”

2. InvD(Investigation Dashboard):一键生成的排障图谱

在发生线上故障时,人类 SRE 往往需要手忙脚乱地打开几十个 Grafana 仪表盘,手动过滤日志。

谷歌自研的 InvD(自动排障仪表盘,Investigation Dashboards) 彻底终结了这一状态。当收到告警时,InvD 会自动爬取相关的遥测数据,结合历史黄金数据进行推理,自动在网页上渲染出一张“自动故障拓扑图(Automated troubleshooting graph)”(如下图所示)。它能直接指出:这是由于某个新版本的二进制 Rollout 导致的 CPU 节流,并建议立即执行隔离。

数据表明,InvD 的上线,让谷歌受影响服务的平均缓解时间(MTTM)骤降了 44%!

3. Antigravity CLI:用 Go 编写的 AI 运维终端

我们在之前的文章中提到,Go 已经成为了 Google 内部智能体系统的通用语言。在 SRE 领域,这一趋势得到了最直接的印证:谷歌推出了基于 Go 开发的全新核心终端——Antigravity CLI。

通过集成标准的 MCP(Model Context Protocol)协议,Antigravity CLI 让 AI 智能体可以直接通过命令行与谷歌内部庞大的 Borg 系统、日志系统和 Bug 跟踪系统进行交互:

  • 自动创建并分配故障单(Create/Assign Bugs);
  • 一键将事故复盘文档导出至 Google Docs;
  • 执行底层的流量排干与扩容指令。

终极安全防线:决策与执行的“冷热解耦”

在白皮书中,谷歌提出了一个极其震撼且对所有企业都有借鉴意义的安全架构:“不要让做决策的 AI,直接去碰你的服务器。”

谷歌将这一安全哲学称为 The Safety Trifecta(安全三驾马车),并在底层通过 Actus(Actuation Agent,执行控制智能体) 实现了完美的“决策与执行解耦”:

1. 思考脑:AI Operator(决策智能体)

当系统报警时,AI Operator 会介入调查。在它的控制台(CoT, Chain of Thought)上,它会写下它的思考过程(例如:“检测到内存 OOM,怀疑是由于昨天部署的镜像导致的,建议将其副本数扩容 100% 以平摊压力”)。

2. 安全闸口:Actus(执行校验智能体)

AI Operator 拥有极高的智慧,但它在 Google 内部没有一丁点直接操作服务器的物理权限。

它提出的所有变更请求,必须提交给一个由确定性安全规则和零信任机制控制的物理控制平面——Actus

  • 强制 Dry-Run 支持:任何 AI 提出的 API 修改,Actus 会首先将其置于 dry_run=true 状态进行沙箱模拟,观察系统的报错。
  • 智能体断路器(Agentic Circuit Breakers):Actus 拥有最高级别的限流权限。如果发现某个 AI Agent 陷入了无限死循环、或者短时间内发起了超出 quota 的异常变更,断路器会瞬间切断其所有执行权限,并向人类 SRE 抛出报警。
  • 零信任与最少特权:AI 智能体绝对不允许使用其开发者的个人凭证去登录服务器。它们拥有自己高度受控、双重强认证的 Agent Identities,且权限范围窄到极致(比如只允许在特定时间内调配流量,绝对不允许直接 ssh 运行原生 shell 脚本)。

这种将“会犯错的 AI 思考脑(LLM)”与“绝对遵守确定性安全规则的 Actus 控制面”进行冷热解耦的设计,是谷歌敢于将生产系统向 L3/L4 级别自治推进的终极底气。

范式革命:从“救火队员”到“安全架构师”的蜕变

当 AI 编排和 Actus 控制面接管了线上 90% 的基础告警和自动排水后,人类 SRE 应该去干什么?

谷歌给出的答案非常具有前瞻性:人类 SRE 正处于从“操作者(Operator)”向“安全架构师(Architect)”演进的关键节点。

过去,SRE 的价值体现在“手速”和“经验”上——谁能最快登录服务器找到那个坏死的配置,谁就是英雄。

现在,AI 的手速是人类的万倍。人类 SRE 的价值,转而体现在“定义安全边界和Actus策略(Defining Safeguards)”上:

  • 设计高质量的 Evaluation Pipeline:设计更好的回归测试集,确保 AI 智能体在上线前不会退化。
  • 架构高可用的渐进式发布(Progressive Rollouts):针对 AI 10倍速的代码产出,设计更加敏感、能够自适应调整分流比例的“渐进式金丝雀发布”机制。

小结

大模型时代的到来,并没有像悲观主义者预言的那样带来软件工程的崩溃。相反,它正在强行将我们从枯燥、重复、高心智负担的“人肉运维”中解脱出来。

正如谷歌 SRE 团队在白皮书结尾所展现出的深邃洞察:

在机器以微秒级吞吐代码、部署服务的时代,人类工程师的价值,不再于手持水枪冲进火场,而在于设计出一套完美无瑕、能够自动防爆的自愈消防网。系统可靠性的终极边界,依然牢牢掌握在那些对生产环境心存敬畏、能够设计出严密安全闸口的系统架构师手中。

AI 负责疯狂奔跑,而我们,负责用优雅的系统工程,为它画出最安全的跑道。

资料链接:

  • https://sre.google/resources/practices-and-processes/ai-engineering-reliable-operations/
  • https://cloud.google.com/blog/products/devops-sre/how-google-sre-is-using-agentic-ai-to-improve-operations

还在为写 Agent 框架频频死循环、上下文爆炸而束手无策?我的新专栏 从0 开始构建 Agent Harness 将带你:

  • 抛弃臃肿框架,回归“驾驭工程 (Harness Engineering)”的第一性原理
  • 用 Go 语言手写 ReAct 循环、并发拦截与上下文压缩引擎等,复刻极简OpenClaw
  • 构建坚不可摧的 Safety Middleware 与飞书人工审批防线
  • 在底层实现 Token 成本审计、链路追踪与自动化跑分评估
  • 从“调包侠”进化为掌控大模型边界的“AI 操作系统架构师”

扫描下方二维码,开启从 0 开始构建Agent Harness 的实战之旅。


原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球,快来加入星球,开启你的技术跃迁之旅吧!

我们致力于打造一个高品质的 Go 语言深度学习AI 应用探索 平台。在这里,你将获得:

  • 体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏,夯实你的 Go 内功。
  • 前沿 Go+AI 实战赋能: 紧跟时代步伐,学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等,掌握 AI 时代新技能。
  • 星主 Tony Bai 亲自答疑: 遇到难题?星主第一时间为你深度解析,扫清学习障碍。
  • 高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术,碰撞思想火花。
  • 独家资源与内容首发: 技术文章、课程更新、精选资源,第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚,享受技术精进的快乐!欢迎你的加入!

img{512x368}


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

别再省 Token 了!硅谷新共识:浪费算力才是唯一捷径

本文永久链接 – https://tonybai.com/2026/06/14/stop-saving-tokens-silicon-valley-consensus-waste-compute-shortcut

大家好,我是Tony Bai。

你是不是也曾在写 Prompt(提示词)时斤斤计较,为了省下那几元钱的 Token 而字斟句酌?你是不是也曾疯狂收藏各种“保姆级提示词教程”,试图摸索出调教大模型的“终极秘籍”?

快停下这种低效的行为吧。在真正的硅谷科技巨头和顶级创始人眼里,你这种抠抠搜搜的省钱方式,正在浪费你这辈子最昂贵的资源——时间。

在最新一期的硅谷教父 Naval and Nivi Podcast 闭门在线圆桌会议上,Naval 邀请了三位极其硬核的“前沿造物主”:

  • Guillermo Rauch(Gumo):前端圣经 Vercel 的创始人,正在致力于将 Vercel 打造为智能体时代的“AI 算力云”。
  • Blake Scholl:Boom Supersonic 创始人,正在自己的工厂里手搓超音速客机和喷气式发动机。
  • Max Hodak:脑机接口独角兽 Science 创始人(前 Neuralink 总裁),正在利用硅基芯片上培育活体神经元来恢复人类视力。

在这场几乎没有水分的对话中,大佬们抛出了一个在当今开发圈极具毁灭性、却又无比清醒的论点:

“别去学那些花里胡哨的提示词技巧了。扔掉预算表,直接用最粗暴的方式把 Claude、Gemini、Codex 砸向同一个问题。垃圾代码万岁,浪费 Token 才是大模型时代的唯一捷径。”

创作者的傲慢:大模型进化得比你快,别再研究“提示词技巧”了

现在的中英文互联网上,充斥着各种教你如何写“完美提示词”的收费课程。但在真正的硅谷巨头眼里,这些技巧无异于“刻舟求剑”。

“我完全无视了那些所谓的‘提示词技巧和框架’,”脑机接口巨头 Science 的创始人 Max Hodak 坦言。

“什么‘使用 Ralph Wigum 模式’、‘引入 OpenClaw’、‘配置这个脚手架’……我全都不管。我默认一个事实:大模型自身进化的速度,远远快于人类摸索提示词技巧的速度。它研究我怎么说话,绝对比我研究它怎么理解要快得多。

Max 揭示了一个极其粗暴但无比爽快的底层策略:暴力破解(Brute Force)

当他遇到一个复杂的系统工程问题时,他不会花三个小时去润色一条完美的 Prompt。他会选择直接写几句甚至带着语法错误的、大白话般的意图,然后同时塞给 Codex、Claude 和 Gemini。他不在乎 API 的账单,他只在乎谁先给出对的结果。

“词元(Token)再贵,也比人类的时间便宜。浪费词元,拯救时间,这就是全部的秘密。”

1000x 工程师的复活:软件开发已经变成了“造工厂”

在传统的研发团队中,说某个程序员是 “10x 程序员(十倍效能)”往往会引发极大的争议,因为它挑战了传统的“人人平等”观念。

但 Naval 指出,在数字和虚拟的世界里,人与人的差距从来就不是 10 倍,而是 100 倍、1000 倍甚至无限大。

“发明 JavaScript 的 Brendan Eich,写出 3D 引擎的 John Carmack,创立比特币的 Satoshi(中本聪)——这些都是 1000x 级别的神仙。”

而在 AI 编排引擎的加持下,这种“1000x 程序员”正在以一种全新的形态复活。

Vercel 创始人 Gumo 提出了一个颠覆性的论点:未来程序员的工作,不再是“交付具体的代码代码”,而是“建造生产代码的工厂”。

[传统工程师] ───> 编写 ───> [具体的业务代码 B] (低效,线性)

[1000x 工程师] ───> 建造 ───> [AI 软件工厂] ───> 自动化裂变 ───> [代码 B 到 Z] (指数级)

以前,衡量一个工程师的价值是:他写代码的速度有多快,交出的 Bug 有多低。

现在,衡量一个工程师的价值是:他能否构建起一个自动化、自省的 AI 开发流水线(The Software Factory),让这个工厂去自动产生从 B 到 Z 的无数代码。

在软件工厂(Software Factory)范式下,未来的开发不是写代码,而是设计生产代码的机器。平庸的、只会机械搬砖的程序员会迅速贬值;而那些具备高阶系统设计能力、超强架构直觉的 1000x 工程师,其生产力将被放大到令人颤抖的维度。

Vibe Coding(氛围编程)的本质:你其实一直都是个“氛围架构师”

近两年,硅谷流行起了一个新词——Vibe Coding(氛围编程)。很多人觉得这只是一个娱乐化的自媒体词汇,但 Naval 却一针见血地指出了它的物理本质:

“其实,一个优秀的研发总监或 CTO,在过去几十年的职业生涯里,一直都在进行‘Vibe Coding’。

想想看,一个资深架构师或 CTO 每天在干嘛?他们并不亲自去写底层的每一行API/数据库调用。他们通过 飞书、Jira、设计文档,向团队传输他们的意志、设计哲学、业务直觉和品味(Taste & Judgment)

他们给出边界和期望,然后让团队里的初级程序员们去补充细节、去踩坑、去实现。

“现在,人类只是把传递意志的对象,从‘初级程序员’换成了‘AI 智能体’。”

你把大方向和架构考量(比如:不要用 MongoDB,这里我们需要高强度的事务一致性,给我上 PostgreSQL)输入给 Agent,然后让它去疯狂搬砖。这正是最纯粹、最硬核的“氛围编程”。

AI 让所有具备“系统大局观”的人类,在瞬间拥有了数十个不知疲倦、随时待命的虚拟技术团队。

软件已死,积木永生?AI 时代真正的“护城河”在哪里?

如果代码生成已经变得如此廉价,那未来软件公司的“护城河(Moat)”到底在哪里?如果 AI 能够一键生成任何软件,那我们还需要构建底层的软件工程吗?

Gumo 和 Naval 探讨了 Mitchell Hashimoto 提出的 “积木经济(Building Block Economy)” 概念。

“我们绝对不能指望 AI 每次面临一个新任务时,都从第一性原理出发去重新发明一遍轮子。”

如果你的 AI Agent 需要发送一封邮件,它不应该去自己从底层协议重构一个邮件收发系统;它应该去调用已经存在的、在人类社会中经过千万次锤炼的安全积木——比如成熟的 Queue 系统、PostgreSQL 数据库。

大模型最核心的资产不是去搞无意义的“重复创造”,而是重用人类文明已经沉淀好的、高鲁棒性的“技术积木”

因此,在 AI 时代,真正的壁垒将分化为两个极端:

  1. 物理底座与前沿硬核(The Hard Tech):比如 Max Hodak 正在做的脑机接口、Blake Scholl 正在造的超音速飞机。这些需要肉身与物理实体发生碰撞的领域,是 AI 无法轻松虚拟化的。
  2. 极致、干净的高性能底层积木(High-quality Building Blocks):那些被千万个 AI Agent 每天高频调用、绝对可靠、超高性能的底层中间件与运行时(比如 Redis、Vercel Serverless、甚至是 Go 的底层运行时)。

小结:一场纯粹创造力的解放

在这场硬核的围炉对话中,大佬们用最前沿的视角,为我们描绘了一个充满希望的未来。

Max 提到,他自己已经有 20 年不写代码了。但由于 AI 工具的爆发,他重新找回了年少时在电脑前废寝忘食、疯狂创造的快乐。在过去几个月里,他完全通过 Agent,为自己构建了数个每天都在高频使用的完整软件系统:

“在过去,你写代码时总会卡在某个愚蠢的依赖配置或编译报错里,一卡就是好几天,极其挫伤积极性。而现在,有了 Agent,你永远不会再卡住了(You just don’t get stuck anymore)。

这是一场属于人类创造力的伟大解放。

当我们不再需要把生命浪费在无休止的“底层配置对齐”和“样板代码套娃”中,当我们学会大把大把地“浪费”廉价的 Token 去换取珍贵的时间,我们才真正夺回了作为“建造者(Builders)”的尊严。

我们不再是手持泥铲、在工地上砌砖的泥瓦匠;我们是坐在直升机上、挥洒着无尽算力、俯瞰整个数字新城拔地而起的巨擘。

资料链接:https://www.youtube.com/watch?v=aiyf-5jmYf0


还在为“复制粘贴喂AI”而烦恼?我的新专栏 AI原生开发工作流实战 将带你:

  • 告别低效,重塑开发范式
  • 驾驭AI Agent(Claude Code),实现工作流自动化
  • 从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码,开启你的AI原生开发之旅。


原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球,快来加入星球,开启你的技术跃迁之旅吧!

我们致力于打造一个高品质的 Go 语言深度学习AI 应用探索 平台。在这里,你将获得:

  • 体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏,夯实你的 Go 内功。
  • 前沿 Go+AI 实战赋能: 紧跟时代步伐,学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等,掌握 AI 时代新技能。
  • 星主 Tony Bai 亲自答疑: 遇到难题?星主第一时间为你深度解析,扫清学习障碍。
  • 高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术,碰撞思想火花。
  • 独家资源与内容首发: 技术文章、课程更新、精选资源,第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚,享受技术精进的快乐!欢迎你的加入!

img{512x368}


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 AI原生开发工作流实战 从 0 开始构建 Agent Harness Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com
这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档