Ai Agent

AI Agent #

Created by: xiaowei Luo Created time: June 18, 2025 7:31 PM Category: Strategy doc Last edited by: xiaowei Luo Last updated time: June 18, 2025 7:31 PM

基础响应模式 (Basic Responder) #

核心特征:基于预设规则或简单模式匹配,执行固定回应或操作。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Deepseek[(deepseek<br>Large language<br>model)]
    Deepseek -->|Response| LLM_response[(LLM<br>response)]

解释:用户输入查询,直接通过提示词(Prompt)发送给大型语言模型(LLM),模型生成简单响应并返回给用户。这是最基础的交互模式,模型仅根据输入生成文本,无额外逻辑处理。

场景示例:问答机器人

  • 用户需求/咨询: 用户在聊天框输入:“预发环境的RocketMQ控制台怎么访问?”
  • AI Agent行为: Agent匹配到关键词“RocketMQ,控制台”,从预设的FAQ库中找到对应的标准连接指南文档链接,并回复给用户。
  • 说明: Agent不理解用户可能遇到的具体问题,只提供标准答案。无法处理复杂的查询或动态变化的状态。

路由选择模式 (Route Selector) #

核心特征:初步意图识别,将任务或查询路由到合适的处理单元或流程。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Router[(Route<br>Selector)]
    Router -->|Route 1| Model1[(Model 1)]
    Router -->|Route 2| Model2[(Model 2)]
    Router -->|Route 3| Model3[(Model 3)]
    Model1 -->|Response| Response_Aggregator[(Response<br>Aggregator)]
    Model2 -->|Response| Response_Aggregator
    Model3 -->|Response| Response_Aggregator
    Response_Aggregator -->|Final Response| User

解释:用户输入后,路由选择器根据查询内容将任务分配给不同模型(如文本生成、数学计算、代码生成等)。各模型生成响应后,由聚合器整合结果并返回给用户。此模式支持多领域任务处理。

场景示例:多级知识库导航

  • 用户需求/咨询: “我想了解一下如何查看线上MySQL是如何处理敏感数据的”
  • AI Agent行为: Agent识别“MySQL”,将其路由到知识库中关于“MySQL”相关的知识库,并给出链接或摘要。
  • 说明: Agent能把用户导向更具体的自助信息。

工具调用模式 (Tool Caller) #

核心特征:理解任务需求,调用外部工具/API获取信息或执行操作,并整合结果。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Agent[(AI<br>Agent)]
    Agent -->|Tool Invocation| Tool[(External<br>Tool)]
    Tool -->|Tool Result| Agent
    Agent -->|Response| User

解释:AI代理分析用户需求后,调用外部工具(如搜索引擎、计算器、API等)获取数据或执行操作。工具结果返回后,代理整合信息生成最终响应。此模式增强了AI的实用性,使其能处理需要外部数据的任务。

场景示例:查询特定服务的使用情况

  • 用户需求/咨询: “帮我查一下Redis 的大key。”
  • AI Agent行为: Agent通过调用tools(如grafana或者redis mcp等)或远程执行命令的工具(redis-cli),获取指定redis服务器的大key或者热点key,并格式化后回复给用户。
  • 说明: Agent能按需提取系统信息。

其他类似场景: 自动化故障诊断信息收集,

多代理协作模式 (Multi-Agent Collaboration) #

核心特征:多个专业Agent分工协作、通信,共同完成复杂目标。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Agent1[(Agent 1)]
    Agent1 -->|Request| Agent2[(Agent 2)]
    Agent2 -->|Request| Agent3[(Agent 3)]
    Agent3 -->|Response| Agent2
    Agent2 -->|Response| Agent1
    Agent1 -->|Final Response| User

解释:多个AI代理协同工作,完成复杂任务。例如,Agent1负责任务分解,Agent2执行子任务,Agent3验证结果。代理间通过中间结果交互,最终由Agent1整合所有信息返回用户。此模式适合需要多步骤推理的任务。

场景示例:复杂故障报告的智能诊断与用户沟通

  • 用户需求/咨询: “系统从早上开始就非常慢,而且经常报错,请帮忙看一下。”
  • AI Agent行为:
    • 用户交互Agent记录问题,并触发诊断协调Agent
    • 诊断协调Agent调动应用Agent(查日志、APM)、网络Agent(查延迟、丢包)、数据库Agent(查慢查询、连接数)等进行联合诊断。
    • 在诊断过程中,用户交互Agent可以定期向用户提供进展更新:“我们正在检查应用服务器日志,初步发现X问题,预计还需要Y分钟定位…”或“数据库团队反馈目前连接正常,我们正在排查应用层…”。
    • 找到原因后,用户交互Agent向用户解释故障原因、影响范围和预计恢复时间。
  • 说明: 不仅是后台协作,还包括了在复杂问题处理过程中与用户的智能沟通和状态反馈。

其他类似场景: 告警抑制,变更评估

自主运行模式 (Autonomous Runner) #

核心特征:自主感知环境、规划、决策、行动、从经验中学习并适应变化,实现长期自主优化。

graph LR
    User[User] --> Query{Query}
    Query -->|Initial Prompt| Autonomous_System[(Autonomous<br>AI System)]
    Autonomous_System -->|Sub-task 1| Sub_System1[(Sub-system 1)]
    Autonomous_System -->|Sub-task 2| Sub_System2[(Sub-system 2)]
    Autonomous_System -->|Sub-task 3| Sub_System3[(Sub-system 3)]
    Sub_System1 -->|Result| Autonomous_System
    Sub_System2 -->|Result| Autonomous_System
    Sub_System3 -->|Result| Autonomous_System
    Autonomous_System -->|Final Response| User

解释:完全自主的AI系统,能够独立规划、执行并管理复杂任务。用户输入后,系统自行分解任务,调用内部子系统(如分析、决策、执行模块)协同工作。每个子系统完成后返回结果,主系统整合所有信息生成最终响应。此模式接近人类自主决策水平。

其他类似场景: CDN调度,回源策略调整


  • 一些要求(From Gemini)

    数据基础、技术与平台、流程与规范、人员与技能、治理与安全这五个更宏观的维度,来阐述在各个AI Agent阶段您需要做的准备工作:


    通用基础准备 (贯穿所有阶段,但重要性随阶段递增):

    • 明确的业务目标与场景选择: 清晰定义希望AI Agent解决哪些运维痛点,带来什么价值。从简单、高频、规则明确的场景入手。
    • 高层支持与跨部门协作: AI Agent的引入往往需要多部门(运维、开发、安全、业务)的配合,高层支持至关重要。
    • 迭代与反馈机制: 建立快速迭代和收集用户/运维反馈的机制,持续优化Agent的表现。
    • 可观测性理念: 从一开始就考虑如何监控AI Agent自身的运行状态、决策过程和效果。

    各阶段的具体准备工作 (扩展维度):

    级别 1: 基础回应模式 (Basic Response Mode)

    1. 数据基础:
      • 结构化FAQ库: 收集、整理并结构化常见的运维问题和标准答案。
      • 简单规则集: 定义明确的触发条件和对应的固定响应/操作(如日志关键词->告警通知模板)。
      • 基础CMDB信息: 至少有服务器列表、应用列表等基础资产信息。
    2. 技术与平台:
      • 简单脚本库: 存放少量、固定的自动化脚本(如查询服务状态)。
      • 通知集成: 配置与邮件、即时通讯工具(Slack、企业微信等)的集成。
      • (可选) 简单RAG雏形: 搭建一个能对FAQ库进行关键词检索的系统。
    3. 流程与规范:
      • FAQ更新流程: 建立FAQ的新增和更新维护流程。
      • 告警通知规范: 定义告警信息的标准化格式和接收人。
    4. 人员与技能:
      • 内容维护人员: 负责FAQ和规则集的日常维护。
      • 基础脚本编写能力: 运维人员具备编写简单自动化脚本的能力。
    5. 治理与安全:
      • *信息访问范围定义:**明确Agent可以访问和提供的基础信息范围。

    级别 2: 路由选择模式 (Routing Selection Mode)

    1. 数据基础:
      • 带意图标注的语料: 收集用户历史提问,并标注其意图,用于训练或配置意图识别模型。
      • 运维知识图谱 (初级): 构建描述系统间依赖、故障模式与处理团队/SOP关联的简单知识图谱。
      • CMDB数据质量提升: 确保CMDB中服务依赖、负责人、影响范围等信息的准确性。
    2. 技术与平台:
      • 意图识别引擎: 引入或配置简单的意图识别模型/服务(可以是基于规则,也可以是简单NLP模型)。
      • 决策树/路由逻辑引擎: 实现基于意图或告警特征的路由逻辑。
      • ITSM/工单系统集成: 实现Agent与工单系统的API对接。
      • RAG能力初步应用: 利用RAG辅助意图理解和知识库导航。
    3. 流程与规范:
      • 告警分级与路由策略: 定义不同告警级别、类型的分发规则和SLA。
      • 用户请求分类标准: 建立用户自助服务请求的分类标准。
    4. 人员与技能:
      • 数据标注能力: 培养运维人员对语料进行意图标注的能力。
      • 流程设计能力: 设计和优化请求路由流程。
    5. 治理与安全:
      • 路由准确性监控: 监控Agent路由的准确率和用户满意度。
      • 数据隐私保护: 在路由过程中注意用户数据的隐私保护。

    级别 3: 工具调用模式 (Tool Invocation Mode)

    1. 数据基础:
      • 全面的运维文档向量化 (RAG核心): 将SOP、API文档、故障排查手册、历史解决方案等全面数字化并构建高质量向量知识库。
      • 工具/API元数据: 清晰描述每个可调用工具/API的功能、输入参数、输出格式、前置条件、潜在风险等。
    2. 技术与平台:
      • LLM/NLP平台: 引入具备较强自然语言理解和生成能力的模型,用于理解用户需求、选择工具、生成调用参数、理解工具输出。
      • RAG系统: 深度集成RAG,为LLM提供动态的、上下文相关的知识。
      • API网关/MCP (Machine Command Plane)建设: 统一和标准化运维操作API,提供安全的调用接口。
      • 安全执行沙箱: 确保Agent调用工具执行命令时的安全性。
      • 插件化/函数化工具库: 开发可被Agent灵活调用的标准化运维工具函数或插件。
    3. 流程与规范:
      • 工具调用授权流程: 定义哪些Agent或用户可以通过Agent调用哪些工具,以及审批流程。
      • 自动化SOP的细化: 将手动SOP改写为适合Agent按步骤执行的、包含工具调用的自动化流程。
      • 异常处理机制: 定义工具调用失败或结果异常时的处理逻辑。
    4. 人员与技能:
      • Prompt Engineering: 运维工程师需要掌握高质量提示词工程技能。
      • API开发与维护能力: 需要有能力开发和维护供Agent调用的MCP接口。
      • RAG内容质量管理: 专人负责RAG知识库内容的准确性和时效性。
    5. 治理与安全:
      • 操作审计: 对Agent的所有工具调用和执行结果进行严格审计。
      • 最小权限原则: Agent调用工具时遵循最小权限原则。
      • 调用频率与资源限制: 防止Agent滥用工具导致系统过载。

    级别 4: 多代理协作模式 (Multi-Agent Collaboration Mode)

    1. 数据基础:
      • 领域知识库细化: 为每个专业Agent(网络、数据库、应用等)构建更深、更细的RAG知识库。
      • 共享状态/上下文数据模型: 定义Agent间协作时需要共享的数据结构和状态信息。
    2. 技术与平台:
      • Agent编排框架: 引入或自研Agent编排平台(如LangChain, AutoGen, CrewAI, Semantic Kernel等,或更专业的AIOps平台)。
      • Agent间通信协议: 定义Agent之间交换信息、指令、状态的标准协议。
      • 成熟的MCP: 提供稳定、全面、安全的运维能力接口层。
      • 分布式任务跟踪与监控: 监控多Agent协作任务的整体执行情况和瓶颈。
    3. 流程与规范:
      • 协作式SOP设计: 针对复杂场景设计跨Agent协作的SOP。
      • Agent角色与职责定义: 清晰界定每个Agent在协作中的角色、能力和责任。
      • 冲突解决机制: 定义当不同Agent的判断或行动产生冲突时的解决策略。
    4. 人员与技能:
      • 系统架构师(AI方向): 负责设计多Agent协作的架构和流程。
      • 复杂工作流设计与优化能力。
      • 跨领域知识整合能力。
    5. 治理与安全:
      • 协作任务的端到端审计。
      • 确保数据在Agent间流转的一致性和安全性。
      • 评估多Agent协作可能带来的连锁反应和风险。

    级别 5: 自主运行模式 (Autonomous Operation Mode)

    1. 数据基础:
      • 海量、高质量、实时运维数据流: 用于Agent的持续感知和学习。
      • 用于模型训练的历史数据集: 包含故障、变更、性能、容量等多种维度的标注或未标注数据。
      • 业务影响数据: 将运维事件与业务影响关联,供Agent决策时考虑。
    2. 技术与平台:
      • AIOps平台/强化学习平台: 支持自主学习、预测、决策模型的训练、部署和持续优化。
      • 数字孪生/仿真环境: (理想)构建运维环境的仿真平台,供Agent安全地测试和优化其策略。
      • 高级决策引擎: 支持复杂的、基于概率和不确定性的决策。
      • 可解释AI (XAI) 工具: 帮助理解Agent自主决策的原因。
    3. 流程与规范:
      • “人机协同”的最终决策流程: 对于高风险自主决策,保留人工审核和干预的接口。
      • 自主学习的边界与目标设定: 明确Agent可以自主学习和优化的范围及目标函数。
      • 应急接管预案: 当自主Agent出现严重异常行为时的手动接管流程。
    4. 人员与技能:
      • 数据科学家/算法工程师: 负责设计、训练和维护Agent的核心AI模型。
      • AIOps专家: 深度理解自主运维系统的构建和运营。
      • 具备处理“黑盒”系统和不确定性问题的能力。
    5. 治理与安全:
      • AI伦理与责任框架: 明确自主Agent行为的伦理边界和责任归属。
      • 严格的风险评估与控制机制: 防止自主Agent做出灾难性决策。
      • 持续的性能与行为监控,确保其与设计目标一致。
      • 透明度与可解释性要求: 尽量让Agent的决策过程可被理解和追溯。