阿里云阿里云智能-百炼平台工程技术专家/高级工程师-北京/杭州
任职要求
1. 计算机/人工智能相关专业硕士及以上学历,熟练掌握 C++/Python/Java/Golang至少一种语言,有很好的抽象能力。 2. 熟练掌握Linux/Posix操作系统下各种概念和原理,了解多线程,异步编程设计和高效的开发、调试方法。 3. 熟悉微服务架构、分布式…
工作职责
1. 设计并实现高性能AI原生网关。构建低延迟、高并发的API网关系统,支持多模态、多协议接入,为国内及全球客户提供灵活、安全、可扩展的流量接入方案,提供完整的数据面控制与可观测能力。 2. 打造智能推理调度与资源管理系统。设计并实现面向复杂分布式推理场景的请求调度和资源调度系统,结合动态负载特征与异构硬件资源,持续优化请求分发策略;建设Serverless化资源调度架构,实现资源的弹性伸缩与极致利用率提升。 3. 构建先进的MLOps平台能力。深度优化模型服务的CI/CD流程,推动算法研发到生产部署的自动化与标准化;实现模型版本管理、灰度发布、监控告警、性能分析等全生命周期管理能力,提升迭代效率与系统稳定性。
1. 模型服务API: 开发实现端到端的模型服务,涵盖LLM/VL/embedding/rerank等大语言模型, 也包含diffusion model方向的生图生视频的模型服务,构建高效的服务框架提升模型接入效率, 优化端到端服务性能,确保稳定性。 2. 百炼大模型开发平台上各领域模型服务架构设计迭代、性能优化以及核心服务开发。 3. 百炼大模型开发平台模型微调、模型评测技术架构设计、算法开发以及对应业务能力建设。
1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。