阿里云阿里云智能-AI Infra 高级研发工程师-北京/杭州/上海
任职要求
1. 3-5年Linux C/C++/Python/CUDA/NCCL/TensorRT等编程经验,对程序架构和数据结构有深入理解。 2. 熟练掌握主流AI计算框架(PyTorch/TensorFlow)的性能优化技术,有AI编译优化,大语言模型优化经验者优先。 3. 充分理解AI…
工作职责
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1. 负责百炼专属版大模型AI Infra产品定义、设计及商业化落地; 2. 制定产品策略以及商业策略,以业务成功为导向,协同研发工程师,售前架构师, 产品运营等多角色共同努力达成业务目标; 3. 深刻理解客户业务和场景需求,追踪行业发展趋势及技术发展动态,规划产品演进路径及迭代,保持具有持续产品力竞争优势; 4. 追踪标杆客户,确保技术可行性,以及对产品演进的持续反馈,沉淀最佳实践,标杆项目案例; 5. 收集客户需求,结合技术理解和研判,推动产品功能升级迭代,提升产品市场竞争力和市场占有率。
团队介绍: "阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。" 职位描述: 1. 打造行业领先的AI工程平台: 设计并构建支撑算法模型高效迭代的标准化平台体系(特征平台、训练平台、在线推理框架等),打通算法创新与业务验证的“任督二脉”,加速模型价值落地。 2. 攻坚大模型工程化挑战: 深入探索生成式AI(AIGC)技术在实际业务中的规模化落地,主导大模型训练、推理加速、性能优化等核心工程难题的解决。 3. 开拓AI创新应用的边界: 积极探索AI在搜索/推荐/广告(搜推广)等核心场景的颠覆性应用(如生成式召回、生成式排序、行为大模型),以及AI Agent技术在智能运维、资源优化、智能客服助手等领域的创新实践,为业务创造新价值。