腾讯大模型训推优化工程师(深圳/北京)
社招全职3年以上大数据(数据计算平台部)技术地点:北京状态:招聘
任职要求
1.精通主流大模型训练框架(DeepSpeed、Megatron等)和训练流程,熟悉分布式训练的底层通信机制、内存管理和优化策略、并行调度逻辑,有训练调参和性能评测经验; 2.熟悉主流大模型推理框架(vLLM、SGLang等),具备在推理上进行通信优化、并行计算、存储优化等调优…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.支持算力引入评估,负责大模型训练、推理在新硬件上的评测及调优工作; 2.主导建设大模型训推稳定性体系,解决模型生产中的技术难题,提升大规模训推的稳定性和效率; 3.深入分析大模型训推特性,结合AI芯片和整机硬件系统,软硬协同充分发挥硬件效能。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
vLLM+
https://www.newline.co/@zaoyang/ultimate-guide-to-vllm--aad8b65d
vLLM is a framework designed to make large language models faster, more efficient, and better suited for production environments.
https://www.youtube.com/watch?v=Ju2FrqIrdx0
vLLM is a cutting-edge serving engine designed for large language models (LLMs), offering unparalleled performance and efficiency for AI-driven applications.
还有更多 •••
相关职位
社招3年以上机器学习平台
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
北京|上海|深圳
社招ACG
-结合LLM技术发展,优化分布式训练和推理框架的性能,各常见模型训推MFU优化到极致状态 -在自研芯片上适配常见的大模型与自驾模型,结合芯片特点做优化,充分发挥自研芯片算力 -探索前沿的训推优化技术,算法、框架、集群协同创新,构建有竞争力的大模型训推系统 -与业务团队协同,理解客户需求,驱动技术创新,业务持续突破
更新于 2025-04-07北京|上海|深圳
社招ACG
-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作
更新于 2025-04-07北京|深圳