百度企业云交付迁移工程师(J86701)
任职要求
- 本科及以上学历,计算机或相关专业 -了解云计算(计算、虚拟网络、分布式存储、容器)相关技术原理,了解GPU相关技术 -掌握python等语言,能自主对…
工作职责
-负责混合云、算力中心建设方案设计,分析交付技术难点并攻克解决,保障项目交付闭环 -负责CPU/GPU上云方案设计,业务、模型、数据上云迁移,为客户提供端到端的上云服务,保障上云方案和实施的可落地性 -与其他技术团队合作,推进方案标准化,提升交付效率 -以客户视角理解客户需求,为客户提供简单高质量的技术服务
• 提供云平台和基础设施领域的专业知识,解决复杂的云平台难题。 • 与客户合作设计和实现基于云的技术架构、迁移方法和应用优化方案,助力实现业务目标。 • 担任技术顾问,并进行问题排查,解决客户面临的技术难题。 • 准备并提供最佳实践建议、教程、博文和示例代码。 • 出差前往区域内各地出席相关会议、开展技术审查工作,以及参加现场交付活动,出差时间最多可达工作时间的 30%。

1. 构建与迭代B端Agent平台与产品能力:工作流编排(DAG / State Machine)、多智能体协作、会话与任务系统(异步/长任务)、记忆与上下文管理。 2. 负责 Agent 工具体系工程化:工具注册/版本与兼容策略、参数 Schema(JSON Schema/Pydantic)、鉴权与租户隔离、幂等/重试/限流、失败降级、回放与审计。 3. 落地企业级 RAG:多源数据接入(文档 / DB / ES / 内网系统)、切分与索引、混合检索(Milvus / PGVector + ES)、重排、引用溯源、增量更新、权限过滤(ACL / RBAC / ABAC)。 4. 负责全栈交付:React 界面(用户界面和管理界面)、Python 后端(API、队列、调度、权限、审计、配置)。 5. 负责模型接入与路由:公有云与自建推理的统一适配层(Provider / Adapter)、模型路由策略、降级与容灾、成本与延迟优化(缓存、批处理、并发控制、token 预算)。 6. 负责交付与运维工程化:SaaS 多租户与配额;私有化安装包(K8s / Helm + Docker Compose)、离线依赖(镜像 / 包 / 模型 / 向量库)打包、升级迁移与回滚预案。 7. 建立评测与可观测:离线评测集、线上指标(成功率 / 工具成功率 / 引用命中率 / 延迟 / 成本)、A/B与回归门禁;基于Tracing / Metrics / Logs 实现端到端定位与复现。
1、客户应急体系建设 (1) 通过流程机制优化、系统工具和标准化建设,面向阿里云全体公共云客户,提升自动化故障应急能力支撑,实现故障的早发现、早通知和早解决。 (2) 重大面积型故障,提供从故障应急、故障复盘到对客故障沟通整体支持工作,同时内部定期组织演练,提升大故障的应急协同效率。 2、故障改进治理:通过对故障复盘和分析,识别运行风险,针对重点大客户主动推进治理、推荐最佳实践、完善止血逃逸能力。 3、客户稳定性保障:提供面向客户的稳定性服务解决方案,包括故障的预防,出现故障后的快速发现和恢复,及事后的优化改进和故障演练。
客户贴身技术服务 • 技术问题处置:持续关注并分析客户用云技术问题,通过对客户业务的深入理解协助客户完成技术案例的快速高效处置。 • 需求追踪:在各行业结合客户业务场景和云产品使用情况,对客户使用情况和需求进行正确分析,挖掘真实产品需求并协助产品持续优化。 稳定性支持与保障 • 应急保障:重大故障问题的应急处置,协助业务快速恢复,故障逃逸等保障工作 • 风险巡检:针对客户使用云产品,进行使用负载,业务容量,风险事件,变更通知等巡检 • 主动服务:结合客户云上业务,制定关键架构监控和告警方案,实现智能监控和预警,提升客户的业务效率和用户体验。 • 全链路评估:对客户业务全链路调用评估,结合业务调用的云上/云下一体化风险评估,关键链路使用建议和风险提醒 • 高可用演练:围绕架构高可用方向,配合客户进行极端场景的高可用演练,模拟故障场景,演练业务逃逸实施并参与总结 • 活动护航:客户重大业务高峰活动护航,包括活动业务架构梳理,前置产品风险巡检,性能压测,故障演练,驻场保障等 云上业务治理与优化 • 用云优化:对客户新产品选型、产品使用方式、支撑行业最佳实践方案,规避通用行业客户使用误区,提炼围绕客户的最佳用云实践方案 • 云上资源管理:协助客户进行云上资源管理,业务资源使用率分析、容量管理和弹性伸缩方案保障 • 卓越架构支持:围绕卓越架构目标,对安全合规、稳定性、成本优化、高效性能方案等全方面优化工作支撑 服务保障 • 服务管理:为客户在云上使用过程中制定合理的服务及交流渠道,提供线上,现场,多项目多部门关键人员的服务交流方案支持,确保关键事件及重点项目的进展信息有效性,推进项目进展顺利落地。 • 项目支持:在客户使用云产品期间根据需求提供多样化的技术保障专项,并结合云产品特性和客户使用情况制定对应技术方案执行路线,保障技术专项的有效交付。 • 满意度保障:为企业客户满意度负责,从问题快速解决到项目平稳交付,并持续提供有效的云上使用建议和稳定性保障方案整体提升客户用云满意度。