鼎捷数智 AI Agent 平台架构岗面试准备
来源:一次围绕 BOSS 直聘 JD 的面试准备讨论整理。本文不复述原始聊天,而是沉淀一套可复用的岗位拆解和面试准备框架。
一句话定位
这个岗位表面是“资深后端架构(AI Coding 经验)”,但真实画像更接近:
面向 ISV 生态的企业级 AI Agent 开发平台架构负责人。
它不是普通 Java 后端,也不是单纯大模型应用开发。它要做的是一个支持第三方软件厂商(ISV)构建智能体、Skill、行业解决方案的平台。
JD 关键词拆解
从岗位描述看,核心关键词包括:
- AI Agent 开发平台
- ISV 低代码 / 高代码构建智能体
- Skill 标准化体系
- Agent SDK、API 网关、调试工具链
- 版本管理与发布流水线
- GPT、文心、通义等大模型接入
- 意图识别、技能选择、自然语言交互层
- 上下文持久化与流转
- ISV 资源隔离
- Multi-Agent、Tool Learning、智能体编排
这些词合在一起,指向的不是单个智能体,而是一个“平台型产品”:
AI Agent Runtime
+ Skill Registry
+ 低代码 Agent Studio
+ 高代码 Agent SDK
+ 模型网关
+ 多租户 ISV 生态
+ 企业级治理与审计ISV 在这个岗位里的含义
ISV 是 Independent Software Vendor,独立软件供应商。
在这个 JD 里,ISV 更具体地指:
基于鼎捷 AI Agent 开发平台,开发行业智能体、业务 Skill、插件和解决方案的第三方软件伙伴。
例如:
- 自动采购 Agent
- 客服 Agent
- 数据分析 Agent
- ERP / MES / 供应链相关 Agent
- 行业业务流程 Agent
平台方提供底座,ISV 提供行业能力和业务扩展,最终共同服务企业客户。
面试准备主线
准备这类岗位,不应只背“微服务、高并发、大模型 API”。更有效的准备主线是:
- 业务理解:鼎捷为什么需要 ISV Agent 平台。
- 平台架构:如何设计低代码 + 高代码 AI Agent 开发平台。
- 技术深度:Agent Runtime、Skill、上下文、模型网关、多租户、安全隔离。
- 经验映射:把过往后端、平台、企业软件经验映射到岗位需求。
- 面试表达:准备系统设计故事、STAR 项目故事和反问清单。
参考平台架构
可以按七层来讲:
ISV / 开发者 / 企业客户
↓
开发者门户 / Agent Studio
↓
低代码编排层 + 高代码 SDK/API
↓
Agent Runtime
↓
Skill Registry / Tool Router
↓
Model Gateway / LLM Adapter
↓
ERP / MES / CRM / 数据库 / 第三方 API更细拆:
1. 接入层
- API Gateway
- OAuth / AKSK
- 租户识别
- 限流
- 审计日志
2. 开发者平台层
- ISV 控制台
- Agent Studio
- Skill 管理
- 调试预览
- 版本发布
- 文档和示例工程
3. 低代码 / 高代码开发层
- 低代码流程编排
- Skill 拖拽式配置
- 参数可视化配置
- Agent SDK
- CLI / Debugger
- CI/CD
4. Agent Runtime 层
- Planner
- Executor
- Tool / Skill Router
- Context Manager
- Memory Manager
- Human-in-the-loop
- Event Bus
5. Skill 平台层
- Skill Registry
- Skill Schema
- 版本管理
- 动态注册
- 动态调度
- 权限和风险等级
6. 模型网关层
- GPT / 文心 / 通义适配
- 模型路由
- fallback
- token 统计
- 成本归因
- 日志和观测
7. 基础设施层
- 数据库
- 向量库
- 对象存储
- 消息队列
- Kubernetes
- Prometheus / Grafana
- 日志系统
核心观点:低代码和高代码共享同一个 Runtime
JD 同时提到低代码可视化开发引擎和高代码开发体系。面试时可以强调:
低代码和高代码不应该是两套割裂系统,而应该共享同一个 Agent Runtime、Skill Registry 和发布治理体系。
低代码画布最终生成 Graph DSL;高代码 SDK 也可以生成同样的 Graph DSL。平台运行时只识别统一 DSL。
示例:
{
"agent_id": "purchase_agent",
"version": "1.0.0",
"nodes": [
{ "id": "intent", "type": "intent_classifier" },
{ "id": "select_skill", "type": "skill_router" },
{ "id": "approval", "type": "human_approval" },
{ "id": "execute", "type": "skill_executor" }
],
"edges": [
["intent", "select_skill"],
["select_skill", "approval"],
["approval", "execute"]
]
}这样可以同时支持可视化配置和工程化开发。
Skill 标准化体系怎么讲
Skill 是这个平台的生态核心。一个 Skill 至少应该有这些元数据:
{
"name": "create_purchase_order",
"description": "Create a purchase order in ERP system",
"input_schema": {},
"output_schema": {},
"version": "1.2.0",
"tenant_id": "isv_001",
"auth_type": "oauth2",
"risk_level": "medium",
"timeout_ms": 30000,
"retry_policy": {},
"rate_limit": {},
"visibility": "private/public/marketplace"
}Skill 生命周期:
开发
↓
本地调试
↓
注册
↓
审核
↓
发布
↓
版本管理
↓
灰度
↓
运行观测
↓
下线Skill 调度链路:
用户意图
↓
意图识别
↓
候选 Skill 召回
↓
权限过滤
↓
租户过滤
↓
参数生成
↓
风险评估
↓
必要时 HITL
↓
执行
↓
结果回写上下文如果被问到动态调度性能,可以从这些角度回答:
- Skill metadata 建索引
- 按租户、行业、场景分区
- 用 embedding 检索候选 Skill
- 用规则或模型 rerank
- 热门 Skill 缓存
- 参数 schema 编译缓存
- 权限和租户过滤前置
- 异步执行和超时控制
模型网关怎么讲
平台不应该在业务代码里散落调用 GPT、文心、通义,而应该有统一模型网关。
模型网关负责:
- 多模型统一 API
- 模型适配器
- 模型路由
- fallback
- 重试
- 限流
- token 统计
- 成本归因
- prompt 模板
- 日志与审计
- 内容安全
- 缓存
可以这样表达:
所有模型调用经过模型网关,才能做成本控制、模型路由、fallback、审计、限流和租户级账单。
上下文持久化怎么讲
Agent 平台里的上下文不是简单 messages。可以分层:
- 会话上下文:当前用户对话历史。
- 任务上下文:当前 Agent 执行到哪一步、调用过哪些 Skill、结果是什么。
- 业务上下文:ERP / MES / CRM 中的订单、客户、库存、采购单等数据。
- 长期记忆:用户偏好、企业规则、历史决策。
- 审计上下文:模型输入输出、工具调用、审批记录。
核心观点:
上下文持久化不是把所有东西塞进 prompt,而是要有分层存储、检索、压缩和权限控制。
ISV 多租户和资源隔离
这个 JD 明确提到 ISV 资源隔离。可以从这些方面讲:
- 租户数据隔离
- API Key / OAuth 隔离
- 模型调用配额
- Skill 执行沙箱
- 网络访问控制
- 日志和审计隔离
- 计费归因
- 故障隔离
对于“百万级智能体实例”,可以补充一句:
百万级 Agent 实例不应该理解为百万个常驻进程,而应该是百万个可恢复的 Agent session / workflow instance。运行时服务无状态,状态放在持久化存储里。
这能体现平台架构意识。
Agent Native 和 Workflow 如何平衡
这个岗位同时需要低代码编排和 Agent 自主决策。可以这样回答:
我不会把 Agent 平台完全做成固定 DAG。固定 DAG 可控但不够智能;完全 Agent Native 自主性强但生产不可控。我的设计是:Graph 定义边界,Agent 在边界内自治,人类在高风险边界介入。
例如:
- 信息收集、候选 Skill 选择、参数生成,可以让 Agent 自主。
- 发起采购、修改 ERP、发送客户消息、写入数据库,必须进入审批和审计流程。
一句可复用表达:
Graph 定义边界,Agent 在边界内自治,人类在越界前介入。
必练系统设计题
题 1:设计一个面向 ISV 的 AI Agent 开发平台
回答结构:
- 需求澄清
- 核心对象:ISV、Agent、Skill、Model、Tenant、Workflow
- 平台分层架构
- 低代码 / 高代码
- Skill Registry
- Agent Runtime
- 多租户隔离
- 模型网关
- 稳定性和观测
- 演进路线
题 2:如何设计 Skill 标准化体系
回答结构:
- Skill 定义
- Metadata 和 Schema
- 生命周期
- 动态注册和发现
- 权限和风险等级
- 版本兼容
- 调度性能
- Marketplace 治理
题 3:如何设计低代码 Agent 编排引擎
回答结构:
- 画布和节点模型
- Graph DSL
- 调试预览
- 发布版本
- 运行时解释 / 编译
- 错误处理
- Human-in-the-loop
- 与高代码 SDK 统一
题 4:如何支持万级 ISV 和百万级 Agent 实例
回答结构:
- 多租户模型
- 无状态 Runtime 服务
- 状态外置
- 队列削峰
- 分区和水平扩展
- 资源配额
- 降级和熔断
- 观测和告警
题 5:如何做 ISV 资源隔离
回答结构:
- 租户数据隔离
- API Key / OAuth 隔离
- 模型调用配额
- Skill 执行沙箱
- 网络访问控制
- 日志和审计隔离
- 计费归因
- 故障隔离
STAR 故事准备
至少准备 5 个故事:
- 复杂平台架构设计
- API / SDK / 开放平台经验
- 高并发 / 稳定性 / 性能优化
- 团队技术领导、架构评审、Code Review
- AI / Agent / RAG / 工具调用探索
每个故事按 STAR:
Situation:业务背景
Task:你负责什么
Action:架构怎么设计,关键取舍是什么
Result:性能、稳定性、交付、业务价值面试反问清单
建议准备这些问题:
- 这个 AI Agent 开发平台目前处于 0 到 1 阶段,还是已有平台需要架构升级?
- 目标 ISV 是鼎捷现有生态伙伴,还是未来会开放给更广泛的第三方开发者?
- 平台当前更偏低代码 Agent Studio,还是更偏高代码 SDK 和 API 开放平台?
- Skill 标准化体系目前是否已经有初版?包括 Schema、版本管理、发布审核和运行时调度这些是否已有规划?
- 大模型接入是直接接 GPT / 文心 / 通义,还是计划建设统一模型网关?
- 这个岗位入职 3 个月和 6 个月,最希望看到的成果是什么?
这些问题能体现你已经在从平台落地角度思考。
30 / 60 / 90 天入职规划
前 30 天
- 梳理现有平台架构和业务目标。
- 明确 ISV 典型开发场景。
- 盘点已有低代码、开放平台、大模型接入能力。
- 输出 Agent Runtime、Skill Registry、模型网关的初版架构方案。
- 定义平台 MVP 边界。
前 60 天
- 落地核心 POC。
- 完成 Skill 注册、调度、版本管理原型。
- 打通一个 Agent SDK 示例工程。
- 打通一个低代码 Agent 流程编排 demo。
- 接入至少两个模型供应商。
- 完成上下文持久化和调试预览方案。
前 90 天
- 推出平台 MVP。
- 支持 1-2 个 ISV 真实场景试点。
- 建立技术规范、Code Review 机制和发布流水线。
- 建立平台观测体系。
- 输出下一阶段平台演进路线。
面试中的核心表达
1. 不要只讲“后端”
要讲:
平台后端、开发者平台、Agent Runtime、ISV 生态。2. 不要只讲“模型”
要讲:
模型只是能力之一,平台关键是 Skill、Runtime、上下文、治理、调试和生态。3. 不要只讲“低代码”
要讲:
低代码和高代码应该共用 Runtime 和 DSL。4. 不要只讲“Agent 自主”
要讲:
Agent 自主性和企业级可控性要平衡。5. 不要只讲“技术先进”
要讲:
ISV 怎么接入?怎么调试?怎么发布?怎么隔离?怎么计费?怎么审计?怎么支持?系统设计回答模板
如果面试官问:“你会怎么设计这个 AI Agent 开发平台?”
可以这样回答:
我会把平台分成五层。
第一层是开发者入口,包括 ISV 控制台、低代码 Agent Studio、高代码 SDK、API 文档和示例工程。
第二层是统一开发模型。低代码画布和高代码 SDK 最终都生成统一的 Agent Graph DSL,这样可以共用同一个运行时。
第三层是 Agent Runtime,包括 Planner、Executor、Skill Router、Context Manager、Memory、Human-in-the-loop 和事件流。它负责智能体执行、状态流转、工具调用和失败恢复。
第四层是 Skill 平台,包括 Skill Registry、Schema、版本管理、动态注册、权限、风险等级和运行时调度。ISV 的核心扩展点应该是 Skill。
第五层是基础能力,包括模型网关、多租户资源隔离、任务队列、状态存储、向量库、对象存储、监控告警和审计。
这样设计的好处是,低代码和高代码不会割裂,ISV 可以根据能力选择接入方式;模型也不会散落在业务代码里,而是通过模型网关统一治理;高风险动作可以通过 HITL 和审计保证企业级可控性。最值得反复使用的观点
- 这个岗位的核心不是做一个 Agent,而是做 Agent 开发平台。
- Skill 是 ISV 生态的核心抽象。
- 低代码和高代码应该共享统一 Runtime,而不是两套系统。
- 模型网关是企业级 Agent 平台的基础设施。
- Agent Native 和 Workflow 不冲突,Graph 定义边界,Agent 在边界内自治。
- 百万级 Agent 实例不是百万个常驻进程,而是百万个可恢复的 Agent session / workflow instance。
- Human-in-the-loop 不应该靠 prompt,而应该在工具和状态机层强制实现。
最终定位
面试中可以把自己定位为:
一个能把传统企业软件平台架构升级到 AI Agent 开发平台的人。
核心卖点:
后端架构基本功
+ 企业软件理解
+ 平台工程思维
+ Agent Runtime 理解
+ ISV 开发者生态意识
+ 低代码 / 高代码统一抽象能力