logo of antgroup

蚂蚁金服蚂蚁集团-AI推理引擎高可用工程师-杭州Z

社招全职技术类-开发地点:杭州状态:招聘

任职要求


1. 具有扎实的编程基础,熟悉至少一种开发语言(java, c/c++, pythongolang)。
2. 熟悉Linux操作系统,对Linux 系统、网络等基础设施层有一定的了解和知识储备。
3. 有大规模集群管理和业务管理、优化经验、产品或者业务高可用能力建设、大模型应用保障等经验的候选人优先。
4. 具备对应岗位方向的知识储备,熟悉业界及开源常见解决方案者优先(之一):GPU、K8S、MLOps、LLM、主流推理引擎、主流深度学习框架、搜索推荐引擎如ElasticSearch、阿里集团AIOS等。

工作职责


1. 负责AI训练推理服务高可用方向工作,如推理框架、推理在线服务、训练平台、训练框架等。
2. 负责以上平台的集群的资源治理、数字化管理等平台的研发。
3. 通过软硬件协同优化和技术创新,为双11、双12大促,新春红包等重大活动的保障与业务护航。
包括英文材料
Java+
C+
C+++
Python+
Linux+
高可用+
大模型+
Kubernetes+
推理引擎+
深度学习+
ElasticSearch+
相关职位

logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-09-24
logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

logo of antgroup
社招3年以上技术类-开发

1. 理解业务规则,和产品团队、架构师团队合作,进行项目的系统分析和设计工作,承担核心功能模块编写维护,确保项目进度和质量; 2. 能提供架构、性能优化的解决方案,并主导平台和产品的快速迭代和优化; 3. 维护和升级现有软件产品,快速定位并修复现有软件缺陷,系统性能优化,主导技术难题攻关; 4. 参与系统架构设计、接口规范制定、技术文档编写、配合团队协同工作等; 5. 输出产品并服务国内外各大金融机构、互联网企业,传统机构等。

更新于 2025-10-08
logo of alibaba
社招技术类-开发

业务介绍: 我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。 岗位描述: 1、负责支持业务迭代:推进来自搜索、推荐、广告、用增各域的产品需求快速落地。 2、负责系统架构设计:负责搜索、推荐、广告引擎的架构设计与优化,支撑多语言场景下的高并发请求处理,满足全球用户低延迟、高可用的服务需求。 3、负责性能调优:针对召回排序、模型训练&推理、特征计算等模块进行工程性能优化(如分布式计算加速、内存管理、GPU资源调度等),提升算法迭代效率。 4、负责工程平台开发:构建算法与工程协同的标准化平台,包括特征实时化平台、在线推理服务框架、AB实验平台等,支持算法快速迭代与业务效果验证。 5、负责大模型工程优化:负责生成式AI技术的工程落地,包含大模型训练、推理加速、多模态内容生成等技术工作。 补充说明:同时也招聘面向25年应届毕业的同学;

更新于 2025-04-02