logo of tencent

腾讯大模型训推优化工程师(深圳/北京)

社招全职3年以上大数据(数据计算平台部)技术地点:北京状态:招聘

任职要求


1.精通主流大模型训练框架(DeepSpeed、Megatron等)和训练流程,熟悉分布式训练的底层通信机制、内存管理和优化策略、并行调度逻辑,有训练调参和性能评测经验;
2.熟悉主流大模型推理框架(vLLM、SGLang等),具备在推理上进行通信优化、并行计算、存储优化等调优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.支持算力引入评估,负责大模型训练、推理在新硬件上的评测及调优工作;
2.主导建设大模型训推稳定性体系,解决模型生产中的技术难题,提升大规模训推的稳定性和效率;
3.深入分析大模型训推特性,结合AI芯片和整机硬件系统,软硬协同充分发挥硬件效能。
包括英文材料
大模型+
vLLM+
还有更多 •••
相关职位

logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

北京|上海|深圳
logo of baidu
社招ACG

-结合LLM技术发展,优化分布式训练和推理框架的性能,各常见模型训推MFU优化到极致状态 -在自研芯片上适配常见的大模型与自驾模型,结合芯片特点做优化,充分发挥自研芯片算力 -探索前沿的训推优化技术,算法、框架、集群协同创新,构建有竞争力的大模型训推系统 -与业务团队协同,理解客户需求,驱动技术创新,业务持续突破

更新于 2025-04-07北京|上海|深圳
logo of baidu
社招ACG

-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作

更新于 2025-04-07北京|深圳
logo of baidu
社招ACG

-优化LLM、长序列、多模态、MoE等先进模型的训练和推理效率,将各场景训推MFU优化到极致状态 -在自研芯片上适配常见的大模型与自驾模型,并结合芯片特点做优化,充分发挥自研芯片算力 -针对大规模异构混芯集群,探索自动并行、多芯混训等前沿技术,构建影响力 -与业务团队协同,理解客户需求,驱动技术创新,业务持续突破

更新于 2025-02-24北京|上海|深圳