鼎捷数智 AI Agent 平台架构岗面试准备

来源：一次围绕 BOSS 直聘 JD 的面试准备讨论整理。本文不复述原始聊天，而是沉淀一套可复用的岗位拆解和面试准备框架。

一句话定位

这个岗位表面是“资深后端架构（AI Coding 经验）”，但真实画像更接近：

面向 ISV 生态的企业级 AI Agent 开发平台架构负责人。

它不是普通 Java 后端，也不是单纯大模型应用开发。它要做的是一个支持第三方软件厂商（ISV）构建智能体、Skill、行业解决方案的平台。

JD 关键词拆解

从岗位描述看，核心关键词包括：

AI Agent 开发平台
ISV 低代码 / 高代码构建智能体
Skill 标准化体系
Agent SDK、API 网关、调试工具链
版本管理与发布流水线
GPT、文心、通义等大模型接入
意图识别、技能选择、自然语言交互层
上下文持久化与流转
ISV 资源隔离
Multi-Agent、Tool Learning、智能体编排

这些词合在一起，指向的不是单个智能体，而是一个“平台型产品”：

AI Agent Runtime
+ Skill Registry
+ 低代码 Agent Studio
+ 高代码 Agent SDK
+ 模型网关
+ 多租户 ISV 生态
+ 企业级治理与审计

ISV 在这个岗位里的含义

ISV 是 Independent Software Vendor，独立软件供应商。

在这个 JD 里，ISV 更具体地指：

基于鼎捷 AI Agent 开发平台，开发行业智能体、业务 Skill、插件和解决方案的第三方软件伙伴。

例如：

自动采购 Agent
客服 Agent
数据分析 Agent
ERP / MES / 供应链相关 Agent
行业业务流程 Agent

平台方提供底座，ISV 提供行业能力和业务扩展，最终共同服务企业客户。

面试准备主线

准备这类岗位，不应只背“微服务、高并发、大模型 API”。更有效的准备主线是：

业务理解：鼎捷为什么需要 ISV Agent 平台。
平台架构：如何设计低代码 + 高代码 AI Agent 开发平台。
技术深度：Agent Runtime、Skill、上下文、模型网关、多租户、安全隔离。
经验映射：把过往后端、平台、企业软件经验映射到岗位需求。
面试表达：准备系统设计故事、STAR 项目故事和反问清单。

参考平台架构

可以按七层来讲：

ISV / 开发者 / 企业客户
        ↓
开发者门户 / Agent Studio
        ↓
低代码编排层 + 高代码 SDK/API
        ↓
Agent Runtime
        ↓
Skill Registry / Tool Router
        ↓
Model Gateway / LLM Adapter
        ↓
ERP / MES / CRM / 数据库 / 第三方 API

更细拆：

1. 接入层

API Gateway
OAuth / AKSK
租户识别
限流
审计日志

2. 开发者平台层

ISV 控制台
Agent Studio
Skill 管理
调试预览
版本发布
文档和示例工程

3. 低代码 / 高代码开发层

低代码流程编排
Skill 拖拽式配置
参数可视化配置
Agent SDK
CLI / Debugger
CI/CD

4. Agent Runtime 层

Planner
Executor
Tool / Skill Router
Context Manager
Memory Manager
Human-in-the-loop
Event Bus

5. Skill 平台层

Skill Registry
Skill Schema
版本管理
动态注册
动态调度
权限和风险等级

6. 模型网关层

GPT / 文心 / 通义适配
模型路由
fallback
token 统计
成本归因
日志和观测

7. 基础设施层

数据库
向量库
对象存储
消息队列
Kubernetes
Prometheus / Grafana
日志系统

核心观点：低代码和高代码共享同一个 Runtime

JD 同时提到低代码可视化开发引擎和高代码开发体系。面试时可以强调：

低代码和高代码不应该是两套割裂系统，而应该共享同一个 Agent Runtime、Skill Registry 和发布治理体系。

低代码画布最终生成 Graph DSL；高代码 SDK 也可以生成同样的 Graph DSL。平台运行时只识别统一 DSL。

示例：

{
  "agent_id": "purchase_agent",
  "version": "1.0.0",
  "nodes": [
    { "id": "intent", "type": "intent_classifier" },
    { "id": "select_skill", "type": "skill_router" },
    { "id": "approval", "type": "human_approval" },
    { "id": "execute", "type": "skill_executor" }
  ],
  "edges": [
    ["intent", "select_skill"],
    ["select_skill", "approval"],
    ["approval", "execute"]
  ]
}

这样可以同时支持可视化配置和工程化开发。

Skill 标准化体系怎么讲

Skill 是这个平台的生态核心。一个 Skill 至少应该有这些元数据：

{
  "name": "create_purchase_order",
  "description": "Create a purchase order in ERP system",
  "input_schema": {},
  "output_schema": {},
  "version": "1.2.0",
  "tenant_id": "isv_001",
  "auth_type": "oauth2",
  "risk_level": "medium",
  "timeout_ms": 30000,
  "retry_policy": {},
  "rate_limit": {},
  "visibility": "private/public/marketplace"
}

Skill 生命周期：

开发
  ↓
本地调试
  ↓
注册
  ↓
审核
  ↓
发布
  ↓
版本管理
  ↓
灰度
  ↓
运行观测
  ↓
下线

Skill 调度链路：

用户意图
  ↓
意图识别
  ↓
候选 Skill 召回
  ↓
权限过滤
  ↓
租户过滤
  ↓
参数生成
  ↓
风险评估
  ↓
必要时 HITL
  ↓
执行
  ↓
结果回写上下文

如果被问到动态调度性能，可以从这些角度回答：

Skill metadata 建索引
按租户、行业、场景分区
用 embedding 检索候选 Skill
用规则或模型 rerank
热门 Skill 缓存
参数 schema 编译缓存
权限和租户过滤前置
异步执行和超时控制

模型网关怎么讲

平台不应该在业务代码里散落调用 GPT、文心、通义，而应该有统一模型网关。

模型网关负责：

多模型统一 API
模型适配器
模型路由
fallback
重试
限流
token 统计
成本归因
prompt 模板
日志与审计
内容安全
缓存

可以这样表达：

所有模型调用经过模型网关，才能做成本控制、模型路由、fallback、审计、限流和租户级账单。

上下文持久化怎么讲

Agent 平台里的上下文不是简单 messages。可以分层：

会话上下文：当前用户对话历史。
任务上下文：当前 Agent 执行到哪一步、调用过哪些 Skill、结果是什么。
业务上下文：ERP / MES / CRM 中的订单、客户、库存、采购单等数据。
长期记忆：用户偏好、企业规则、历史决策。
审计上下文：模型输入输出、工具调用、审批记录。

核心观点：

上下文持久化不是把所有东西塞进 prompt，而是要有分层存储、检索、压缩和权限控制。

ISV 多租户和资源隔离

这个 JD 明确提到 ISV 资源隔离。可以从这些方面讲：

租户数据隔离
API Key / OAuth 隔离
模型调用配额
Skill 执行沙箱
网络访问控制
日志和审计隔离
计费归因
故障隔离

对于“百万级智能体实例”，可以补充一句：

百万级 Agent 实例不应该理解为百万个常驻进程，而应该是百万个可恢复的 Agent session / workflow instance。运行时服务无状态，状态放在持久化存储里。

这能体现平台架构意识。

Agent Native 和 Workflow 如何平衡

这个岗位同时需要低代码编排和 Agent 自主决策。可以这样回答：

我不会把 Agent 平台完全做成固定 DAG。固定 DAG 可控但不够智能；完全 Agent Native 自主性强但生产不可控。我的设计是：Graph 定义边界，Agent 在边界内自治，人类在高风险边界介入。

例如：

信息收集、候选 Skill 选择、参数生成，可以让 Agent 自主。
发起采购、修改 ERP、发送客户消息、写入数据库，必须进入审批和审计流程。

一句可复用表达：

Graph 定义边界，Agent 在边界内自治，人类在越界前介入。

必练系统设计题

题 1：设计一个面向 ISV 的 AI Agent 开发平台

回答结构：

需求澄清
核心对象：ISV、Agent、Skill、Model、Tenant、Workflow
平台分层架构
低代码 / 高代码
Skill Registry
Agent Runtime
多租户隔离
模型网关
稳定性和观测
演进路线

题 2：如何设计 Skill 标准化体系

回答结构：

Skill 定义
Metadata 和 Schema
生命周期
动态注册和发现
权限和风险等级
版本兼容
调度性能
Marketplace 治理

题 3：如何设计低代码 Agent 编排引擎

回答结构：

画布和节点模型
Graph DSL
调试预览
发布版本
运行时解释 / 编译
错误处理
Human-in-the-loop
与高代码 SDK 统一

题 4：如何支持万级 ISV 和百万级 Agent 实例

回答结构：

多租户模型
无状态 Runtime 服务
状态外置
队列削峰
分区和水平扩展
资源配额
降级和熔断
观测和告警

题 5：如何做 ISV 资源隔离

回答结构：

租户数据隔离
API Key / OAuth 隔离
模型调用配额
Skill 执行沙箱
网络访问控制
日志和审计隔离
计费归因
故障隔离

STAR 故事准备

至少准备 5 个故事：

复杂平台架构设计
API / SDK / 开放平台经验
高并发 / 稳定性 / 性能优化
团队技术领导、架构评审、Code Review
AI / Agent / RAG / 工具调用探索

每个故事按 STAR：

Situation：业务背景
Task：你负责什么
Action：架构怎么设计，关键取舍是什么
Result：性能、稳定性、交付、业务价值

面试反问清单

建议准备这些问题：

这个 AI Agent 开发平台目前处于 0 到 1 阶段，还是已有平台需要架构升级？
目标 ISV 是鼎捷现有生态伙伴，还是未来会开放给更广泛的第三方开发者？
平台当前更偏低代码 Agent Studio，还是更偏高代码 SDK 和 API 开放平台？
Skill 标准化体系目前是否已经有初版？包括 Schema、版本管理、发布审核和运行时调度这些是否已有规划？
大模型接入是直接接 GPT / 文心 / 通义，还是计划建设统一模型网关？
这个岗位入职 3 个月和 6 个月，最希望看到的成果是什么？

这些问题能体现你已经在从平台落地角度思考。

30 / 60 / 90 天入职规划

前 30 天

梳理现有平台架构和业务目标。
明确 ISV 典型开发场景。
盘点已有低代码、开放平台、大模型接入能力。
输出 Agent Runtime、Skill Registry、模型网关的初版架构方案。
定义平台 MVP 边界。

前 60 天

落地核心 POC。
完成 Skill 注册、调度、版本管理原型。
打通一个 Agent SDK 示例工程。
打通一个低代码 Agent 流程编排 demo。
接入至少两个模型供应商。
完成上下文持久化和调试预览方案。

前 90 天

推出平台 MVP。
支持 1-2 个 ISV 真实场景试点。
建立技术规范、Code Review 机制和发布流水线。
建立平台观测体系。
输出下一阶段平台演进路线。

面试中的核心表达

1. 不要只讲“后端”

要讲：

平台后端、开发者平台、Agent Runtime、ISV 生态。

2. 不要只讲“模型”

要讲：

模型只是能力之一，平台关键是 Skill、Runtime、上下文、治理、调试和生态。

3. 不要只讲“低代码”

要讲：

低代码和高代码应该共用 Runtime 和 DSL。

4. 不要只讲“Agent 自主”

要讲：

Agent 自主性和企业级可控性要平衡。

5. 不要只讲“技术先进”

要讲：

ISV 怎么接入？怎么调试？怎么发布？怎么隔离？怎么计费？怎么审计？怎么支持？

系统设计回答模板

如果面试官问：“你会怎么设计这个 AI Agent 开发平台？”

可以这样回答：

我会把平台分成五层。

第一层是开发者入口，包括 ISV 控制台、低代码 Agent Studio、高代码 SDK、API 文档和示例工程。

第二层是统一开发模型。低代码画布和高代码 SDK 最终都生成统一的 Agent Graph DSL，这样可以共用同一个运行时。

第三层是 Agent Runtime，包括 Planner、Executor、Skill Router、Context Manager、Memory、Human-in-the-loop 和事件流。它负责智能体执行、状态流转、工具调用和失败恢复。

第四层是 Skill 平台，包括 Skill Registry、Schema、版本管理、动态注册、权限、风险等级和运行时调度。ISV 的核心扩展点应该是 Skill。

第五层是基础能力，包括模型网关、多租户资源隔离、任务队列、状态存储、向量库、对象存储、监控告警和审计。

这样设计的好处是，低代码和高代码不会割裂，ISV 可以根据能力选择接入方式；模型也不会散落在业务代码里，而是通过模型网关统一治理；高风险动作可以通过 HITL 和审计保证企业级可控性。

最值得反复使用的观点

这个岗位的核心不是做一个 Agent，而是做 Agent 开发平台。
Skill 是 ISV 生态的核心抽象。
低代码和高代码应该共享统一 Runtime，而不是两套系统。
模型网关是企业级 Agent 平台的基础设施。
Agent Native 和 Workflow 不冲突，Graph 定义边界，Agent 在边界内自治。
百万级 Agent 实例不是百万个常驻进程，而是百万个可恢复的 Agent session / workflow instance。
Human-in-the-loop 不应该靠 prompt，而应该在工具和状态机层强制实现。

最终定位

面试中可以把自己定位为：

一个能把传统企业软件平台架构升级到 AI Agent 开发平台的人。

核心卖点：

后端架构基本功
+ 企业软件理解
+ 平台工程思维
+ Agent Runtime 理解
+ ISV 开发者生态意识
+ 低代码 / 高代码统一抽象能力

总览云服务架构师课题