阿里云阿里云智能-云效智能化高级研发工程师-杭州
任职要求
1. 计算机科学、软件工程或相关领域专业背景。
2. 有3年以上的软件系统开发工作经验。有领导大型技术项目或团队者优先。
3. 技术技能:
*具有分布式系统架构设计和开发经验,熟悉典型 PaaS 平台的资源调度,弹性,容错的架构设计。
*精通 JAVA 语言编程,精通 Spring Boot、MyBatis等框…工作职责
1. 负责云效DevOps产品的AI能力建设,包括代码平台、流水线、项目管理等平台的智能化应用开发。 2. 熟悉阿里云·云原生相关产品,打通从产品开发到应用发布的最后一公里。 3. 持续跟踪DevOps领域、AI研发工具领域新进展,用先进的协同模式和AI工具,为研发团队提效。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1、基于大模型算法应用进行从需求创建到应用发布全流程各个环节提效工具的开发、建设,提升公司整体需求交付效率; 2、基于大模型算法对公司内部过往的各大提效系统和工具进行整体重建重构,建设智能化工具; 3、对于特定垂类场景模型进行训练、微调、优化评测等,提升模型在垂类场景上的效果; 4、基于公司内部研发过程中的各类痛点的问题,开发有针对性、有前瞻性的工具,并不断进行改进优化。 5、通过自研、集成、二次开发等多种手段,积极推进大模型应用和落地相关实践,系统性的提高研发、测试和项目交付管理全流程的能力和效率。
1.负责腾讯云AI产品质量保障和测试开发相关工作,参与AI产品(Prompt/Chain等)质量体系建设; 2.牵头推进传统测试与AI融合,探索建设前沿AI测试领域能力(包括但不限于AI测试工具开发、AI自动化体系建设等); 3.结合云测试现状,开展AI测试实践,依托AI工程化能力,帮助腾讯云提升研发效能和质量; 4.参与质量效率相关工具开发,推进研发流程、发布变更等持续改进优化。