logo of tencent

腾讯大模型Infra技术研究员-(北京)or

社招全职3年以上云智能技术地点:上海状态:招聘

任职要求


1.计算机科学、计算机体系结构、软件工程、人工智能等相关专业的博士及优秀硕士;具有大规模分布式训练系统、高性能计算或 MLSys 方向研究与工程背景者优先;
2.深入理解大规模分布式训练系统,熟悉 DeepSpeed、Megatron-LM、PyTorch FSDP 等主流框架原理;熟悉张量并行、流水线并行、序列并行等并行策略;精通 PythonC++,熟悉 C…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责大模型推理引擎架构设计、研发与迭代,深度适配主流GPU及异构AI芯片,优化推理性能与算力成本,搭建生产级PD分离推理调度系统,保障推理服务高并发、低延迟、高稳定;
2.搭建并优化多模态大模型训练底层基建,解决训练端显存管理、混合并行调度、跨节点通信同步痛点,完善算力调度与数据流水线,支撑模型高效稳定训练;
3.针对训练与推理场景核心技术难题,落地动态显存分配、KV Cache优化、变长序列批处理、通信优化、异构算力负载均衡等关键技术;
4.基于GPU与异构芯片架构,完成训练、推理全流程性能分析、算子及调度优化,推动优化方案工程化落地;
5.跟踪大模型Infra前沿技术,沉淀优化实践经验;参与vLLM、SGLang等开源项目协作,实现内部技术与开源生态双向赋能。
包括英文材料
PyTorch+
FSDP+
Python+
C+++
还有更多 •••
相关职位

logo of tencent
社招2年以上微信支付技术

1.负责Code和Agent相关数据构建与治理,构建高质量、多样化的Code/Agent训练数据集,搭建数据迭代闭环,通过数据飞轮持续优化数据质量; 2.负责Agent运行环境与训练环境的构建与优化,构建高可用、可扩展的Agent仿真环境,保障Agent训练、测试及落地的稳定性与高效性; 3.负责Agentic RL在Code/Agent场景的训练,参与Agentic RL Infra建设及优化、Agentic RL 算法优化,持续提升Agentic RL训练的效率和稳定性。

更新于 2026-04-05上海
logo of liauto
校招算法

1.完成LLM、多模态大模型在各种硬件平台的推理落地和性能加速,提供性能最佳的软硬件结合落地方案 2.跟进业界前沿加速技术,如低比特量化、模型裁剪、投机推理、多卡并行推理等 3.探索工程和算法层面的创新优化点,提出兼顾效果和效率的优化思路

北京
logo of mihoyo
实习程序&技术类

1. 专研训练框架,快速定位训练中出现的问题,分析训练过程中的模型表现,跟infra team合作来保证训练策略的正确性 2. 紧跟领域前沿技术,研究新型LLM模型架构,提升训练或推理的计算效率和模型性能 3. 研究不同架构、数据、目标函数和优化方法等各个算法方面的scaling law,总结出高效稳定的预训练策略 4. 拓展模型在长文本理解和生成的能力

上海|北京
logo of bytedance
校招A168399

团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。

更新于 2025-05-14北京