← 返回术语词典

护栏(Guardrails)

打个比方:你去保龄球馆。你是初学者,球经常跑偏,但球道两旁有防撞栏(保险杠)——球撞到栏就会弹回来,不会滚进沟里。偶尔你想挑战自己,也可以让工作人员把护栏降下来

Guardrails 就是 AI 世界的保龄球护栏。它确保 AI 的行为在安全边界内,不会"滚进沟里"——比如删除重要文件、泄露隐私数据、执行恶意代码。

三道路障

  • 入口安检(输入护栏):你的指令在送进 AI 之前先过一遍安检——是不是有人想用提示词越狱?是不是在用脏套路?就像机场安检扫你的行李。
  • 出口质检(输出护栏):AI 的回答在给你之前先过一遍审查——有没有不小心泄露了别人的隐私信息?有没有生成不安全的代码?就像出厂前的质量抽检。
  • 工具限权(工具护栏):AI 能用的工具是被圈定范围的。"你可以读文件,可以搜索,但不能删除文件。"就像给实习生发门禁卡只开他能进的房间。

为什么有时候 AI 不听你的

有时候 AI 拒绝做某件事,你觉得"它不听话"——其实不是,是护栏在工作。就像你让一个高度自律的人帮你撒谎,他不会答应。当你确实需要 AI 越界操作(如删除文件),你可能需要显式确认——这就是"人机协同"的意义:把护栏暂时降下来,但由你来盯着。