logo of aliyun

阿里云阿里云智能-AI工程系统性能优化专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 熟悉深度学习框架、分布式训练和推理技术框架(如deepseed、fsdp、megatronvllmsglang);
2. 熟悉AI系统的性能分析工具(如Nsight、PyTorch Profiler等);…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持多类型客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 参与主流训练和推理框架的调优开发,优化分布式训练和推理引擎的底层实现;构建性能调优工具链,降低算法工程师的优化门槛;
3. 开发高性能CUDA/Triton算子,优化计算密集型任务(如矩阵乘法、Attention机制)。
包括英文材料
深度学习+
Megatron+
vLLM+
SGLang+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 参与云产品管控系统的架构升级和优化工作,根据管控系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果; • 基于需求进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型和功能设计。完成技术架构和数据架构设计,并推进开发流程。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 对编码进行阶段性的讨论和CodeReview,完成功能测试和性能测试,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 通过数据分析,稳定性研究和性能测试,持续推动升级和优化云产品管控架构,实现高可用、高性能的管控系统; • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验。 4、技术预研 • 跟踪和了解国内外云计算技术和分布式计算技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求做出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-10-13北京|杭州
logo of antgroup
社招1年以上技术-开发

ASystem 会探索和构建高性能的 AI 强化学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景; 3. 研发环境工程和高性能 sandbox 引擎技术,包括多语言执行环境、桌面虚拟化渲染、大型程序虚拟环境等场景,满足大规模并发调用、极速启动、安全隔离等能力;

更新于 2025-12-02北京|杭州
logo of tongyi
社招5年以上技术类-质量保证

1. 构建端到端的数据与MLOps基础设施,支撑语音、图像、文本、传感器等多模态数据的大规模处理及模型的后训练、评估与部署。 2. 设计自动化数据管线,实现多模态数据的收集、清洗、标注、版本管理、质量监控及隐私合规处理。 3. 主导MLOps核心能力建设,包括实验跟踪、特征管理、训练调度、A/B测试、模型版本控制、灰度发布与在线监控。 4. 搭建覆盖模型能力(如ASR准确率、NLU F1、LLM任务完成率)、系统性能(延迟、资源占用)和用户体验(上下文连贯性、任务成功率)的自动化评测体系。 5. 推动AI驱动的测试创新,探索基于大模型的测试用例自动生成、用户行为模拟、对抗测试等前沿方法。

更新于 2025-11-24北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责阿里云容器云原生AI和大数据产品的架构设计和开发工作 2. 负责容器产品调度、管理大规模GPU/NPU/RDMA等异构资源集群的效率、性能和稳定性的持续优化 3. 负责基于Kubernetes容器构建面向AI/大模型训练和推理,大规模数据处理和工作流等场景的基础设施产品和解决方案 4. 负责云原生AI领域新技术和新方向的预研和落地,及相关开源能力建设

更新于 2025-11-26北京|杭州