唐帅头像
腾讯 · 资深开发工程师

唐 帅

AI 智能体 · 云原生 · 分布式系统

12 年跨大厂(腾讯 · 华为 · 深信服)技术积淀,专注企业级平台架构设计与核心开发,主导从 0 到 1 构建多个亿级规模系统。

AI 智能体 云原生 分布式系统 DevOps 中间件 K8S / Istio 混沌工程

教育经历

重庆邮电大学
通信工程 · 本科
2010.09 — 2014.07
英语 CET-4 / CET-6,具备流利的技术文档读写与跨团队沟通能力
全国软考 · 网络工程师中级
院级一等奖学金 · 校级一等奖学金 · 国家励志奖学金

核心能力

领域深耕

专注 AI 智能体、云原生、分布式系统、中间件、DevOps 等领域多年,积淀深厚行业经验与丰富实战能力。

全流程能力

具备大型企业级平台从 0 到 1 架构设计、核心开发、团队管理及全生命周期运营的端到端能力。

高并发架构

主导设计并落地高并发流量承载平台,作为平台技术负责人,具备复杂场景疑难问题的快速定位与深度解决能力。

跨厂商经验

沉淀腾讯、华为、深信服等多厂商云服务架构实践,兼具技术深度与业务落地能力,具备多大厂研发和业务视野。

技术栈

编程语言
Python Golang Java JavaScript Android iOS
云原生&基础设施
Kubernetes Docker Istio Temporal OpenStack IaC / Terraform
AI & 智能体
LLM RAG MCP Multi-Agent Dify LangChain Eino / 扣子
中间件&数据
Kafka ClickHouse MySQL Redis Elasticsearch
DevOps&可观测
CI/CD Prometheus Grafana 混沌工程 Airflow

工作经历

腾讯 资深开发工程师
2022.04 — 至今

AI 智能体、研效、云原生方向技术负责人,负责企业级工程效能平台架构设计与核心开发,主导环境治理和系统稳定性在云产品的落地。

  • AI 智能体平台构建:调研业界主流智能体平台,负责开发通用 AI 智能体平台,支持智能问答、问题分析等场景标准化接入,成为组内多平台 AI 能力底座,大幅提升业务 AI 接入效率。
  • 企业级平台从 0 到 1:主导环境治理、系统稳定性等多个核心平台建设,覆盖 Python/Golang、K8S 云原生、Istio 服务网格、可观测性等关键领域,独立承担架构设计与核心开发。
  • DevOps 全流程落地:深度参与 DevOps 全流程机制设计,熟悉需求管理、CICD 流水线、测试管理、环境管理等各环节开发,具备 DevOps 平台整体架构设计能力。
  • 腾讯云生态深度对接:获腾讯云从业者、腾讯云架构师等多项认证,牵头完成腾讯云多产品效能落地,保障业务团队开发效率和系统稳定性。
五星员工 · 卓越运营奖 · 开源协同奖 · 卓越研发奖
华为 高级开发工程师
2017.06 — 2022.03

云存储数据备份与容灾领域技术骨干,负责云产品数据备份与容灾服务核心开发、安全架构优化与团队技术管理。

  • 数据备份容灾攻坚:主导华为云服务器、云硬盘存储层/应用层备份和容灾、容器容灾项目开发,构建高可用数据保护体系,RTO/RPO 指标达行业领先水平。
  • 安全与质量体系建设:作为安全负责人,牵头全领域安全排查与整改,推行 CleanCode 规范,带领团队通过公司及外部机构安全稽核。
  • 技术团队管理与效能:承担项目管理职责,实现多迭代零重大事故交付;带领团队参赛获"最美可信代码奖",提升团队编码规范与协作效率。
年度优秀员工 · 明日之星 · 金码奖
深信服 全栈开发工程师
2014.07 — 2017.05

移动办公应用全栈技术开发,覆盖 Android/iOS/Web/Server 多端开发,主导测试平台构建与测试流程优化。

  • 全栈开发与测试体系:独立负责移动办公应用全栈开发与整体性测试,主导自动化测试平台、接口测试框架设计实现,效率提升 50%+。
  • 测试流程标准化:引入行业先进测试理论,制定用例设计指导与标准规范,负责新人培养与测试小组管理,助力团队获最佳团队奖。
年度优秀员工 · 年度最佳质量奖 · 勤奋敬业奖

核心项目经历

AI 智能体平台

腾讯

通用 AI 智能体接入平台,提供知识库、MCP 工具、提示词、Rule 和 Skill 管理,支持标准 AGUI 和 A2A 对接,实现智能问答、问题分析等多场景能力,成为多平台 AI 底座。

  • 主导 Dify、Eino(扣子)、LangChain 等主流框架架构及源码级分析,输出架构白皮书
  • 统筹规划 RAG 知识库、MCP 工具标准化接入、Session/Memory 全生命周期管理、多智能体协同等核心模块
  • 创新"接口文档即工具"零代码转化模式,大幅降低业务接入门槛
  • 引入全链路监控与 Agent 量化评测体系,构建智能体运行可视化看板
PythonRAGMCPLLMMulti-Agent

稳定性业务智能体

腾讯

该项目是针对系统稳定性平台开发的业务智能体,给用户提供关于平台的智能问答、平台任务分析、平台业务智能辅助操作等。

  • 采用多智能体架构,主智能体根据用户意图路由道不同的智能体
  • 同时提供人机协作针对关键操作进行确认或二次编辑等操作
  • 针对任务分析等产品强相关场景,提供skill扩展机制
Multi-Agent意图路由人机协作Skill扩展

系统稳定性平台

腾讯云

腾讯云业务混沌演练平台,提供一站式场景编排设计、执行、问题定位、缺陷分析、系统评估及完整可观测能力与质量看板。

  • 主导全流程架构设计,完成 200+ 工具内建与规范化管理
  • 自研超越 Airflow DAG 的高并发任务编排框架,基于 Temporal 实现日调度百万级任务量
  • 累计助力发现 1000+ 系统稳定性隐患,推动测试效率提升 80%
  • 研发执行机管理服务,多维度健康检测与负载均衡分发,大幅提升资源利用率
GolangK8STemporal混沌工程Prometheus

环境治理平台

腾讯云

腾讯云各业务产品环境一体化部署平台,提供应用管理、环境隔离、配置动态渲染、资源动态申请、环境路由等能力,支持云原生与主机应用混合部署。

  • 提出 IaC 核心设计思想,将资源配置、中间件、路由策略全维度抽象建模,实现环境差异彻底隔离
  • 自研自定义 DSL 组件与环境描述语言,实现一键式自动化部署
  • 创新引入 Hook 扩展机制,灵活支撑各业务线个性化操作需求
  • 构建基于 Kafka/ClickHouse/BI 的 OLAP 运营分析系统,数据驱动持续优化
IaCDSLK8SIstioClickHouse

数据保护服务

华为云

华为云硬盘/云服务器等存储产品的数据备份与恢复管理平台,基于 OpenStack 生态,通过标准化接口与可插拔插件机制,支持各云厂商无缝接入。

  • 推动架构分层优化,任务调度层 + Provider 执行层设计支撑高并发稳定执行
  • 主导云硬盘/云服务器全量/增量备份、跨 Region 数据复制、备份数据上云等核心模块开发
  • 自研轻量级 Agent 实现应用数据一致性备份
  • 牵头 DFX 规范体系及全链路安全整改,通过公司及外部多轮安全稽核
PythonOpenStack分布式存储备份容灾

应用容灾管理服务

华为云

华为云多产品统一容灾管理平台,在解决方案层面支持对各产品应用进行容灾编排,实现一键式灾难恢复、计划性迁移、容灾演练,提升全局 RTO/RPO 能力。

  • 主导整体架构规划,采用分层架构 + 插件化扩展机制实现容灾能力模块化解耦
  • 自研支持多层级依赖关系的串并行容灾编排引擎,覆盖灾难恢复、迁移、演练等核心场景
  • 容灾方案接入效率提升 80%+,高效支撑多局点日常容灾管理
分层架构插件化编排引擎RTO/RPO

基于 K8S 的容器容灾

华为云

华为云 CCE 容器集群跨 Region 级容灾平台,依托 K8S 云存储 PV 卷在存储层做数据异步复制,同时在备 Region 预创建 K8S 相关资源,实现秒级拉起相同 Pod 实例。

  • CCE 容器引擎模型开发及相关 SDK 开发,为团队提供公共接口能力
  • 容灾实例管理操作,包括卷映射、容器资源预创建及配对工作
  • 通过容灾演练、计划性迁移、故障恢复管理,大幅提升集群 RPO/RTO 能力
K8SCCEPV/PVC跨 Region

自我评价

解决问题能力

善于攻克技术难题,主导微服务改造、性能优化、安全整改等关键项目,多次解决项目技术痛点,具备复杂问题定位与解决能力。

团队协作与分享

具备优秀的跨团队沟通协调能力,擅长拉通多方资源推进项目;热爱技术分享,在个人博客与技术论坛输出专业内容,获得同行认可。

职业素养

对技术有极致追求,工作认真负责,注重细节与质量;保持持续学习习惯,紧跟 AI、云原生等前沿技术趋势,不断拓展技术边界。