腾讯大模型推理优化研发工程师-算子优化/编译-大模型方向

社招全职AI技术2025-06-19地点：深圳状态：招聘

扫码手机上打开

任职要求

1.熟练掌握C/C++、Python编程语言，具备良好的coding和调试能力；
2.熟悉GPU/AI芯片编程，如CUDA，OpenCL，Ascend C等，熟悉cutlass等加速库是加分项；
3.熟悉主流大模型推理框架，如vllm，sglang，tensorrt-llm，FasterFransformer等；
4.熟悉各类深度学习网络和算子底层实现细节，训练和推理模型…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.研发及优化大模型推理引擎、PD分离推理调度系统；
2.优化大模型推理性能，提升吞吐并控制成本；
3.优化大模型推理框架，提升框架易用性和可调试性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

CUDA+

OpenCL+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理优化研发工程师-算子优化

社招2年以上CSIG技术

1.参与基于GPU的高性能计算(HPC)项目设计与开发，负责GPU芯片(NVIDIA，AMD等)的底层性能优化与调优； 2.针对大模型推理场景，优化和扩展vLLM、SGLang等框架的核心模块，提升计算效率与资源利用率； 3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等)，设计并实现高性能算子与算法； 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等)，推动AI工程化落地的效率提升。

更新于 2025-06-17上海

大模型推理框架研发工程师（高级/资深）(J250514005)

社招技术

1. 主导大模型推理引擎的架构设计与核心模块开发，支撑千亿参数模型的高效分布式推理。 2. 研发面向GPU/NPU等异构计算平台的高性能算子，提升硬件利用效率。 3. 参与模型低精度量化，图优化，编译优化等性能优化工作。 4. 攻克分布式推理中的动态负载均衡、通信优化、显存管理等核心技术难题。 5. 跟踪学术界与工业界前沿技术（如vLLM、TGI、TensorRT-LLM等），推进框架迭代。

更新于 2025-12-02北京

大模型训练/推理系统研发工程师-广告业务-筋斗云人才计划（北京/上海）

校招A240474B

团队介绍：广告业务原为商业产品与技术部门，为抖音集团的商业变现提供广告产品与技术，负责端到端大型广告系统建设，覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵，践行"激发生意新可能"理念，致力于让营销更省心、更高效、更美好，推动商业的可持续增长，让不分体量、地域的企业及个体，都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里，你将投身建设面向未来的数字营销能力，接触到全球先进的商业产品架构、模型和算法，在互联网广告行业始终创新。课题背景：随着人工智能技术的快速发展，大模型技术在交易与广告场景中的应用日益广泛，已成为推动行业创新和效率提升的重要驱动力。大模型凭借其强大的学习能力和泛化性能，在多个领域展现出显著优势。例如，推荐大模型能够精准捕捉用户偏好，提升个性化推荐效果；AIGC（AI-Generated Content）技术可用于广告创意、商品图片和视频生成，大幅降低创作成本并提升内容质量；广告投放诊断系统和诊断助手帮助优化投放策略；智能客服、影片智能剪辑、智能导购、大模型审核、用户序列建模以及多模态广告和用户理解等应用，则通过自然语言处理、多模态数据融合等技术，提升用户体验和业务效率。然而，交易与广告场景对大模型系统的要求极高，不仅需要模型具备出色的精度和泛化能力，还需在实时性、稳定性、可扩展性等方面满足严苛标准。特别是在大规模分布式训练、推理加速、异构硬件支持、多模态数据处理以及系统集成等方面，存在诸多技术难点。因此，针对交易与广告场景研发和优化大模型系统，不仅是人工智能技术发展的前沿方向，也是行业应用的迫切需求。本课题旨在通过系统和工程领域的深入研究，突破关键技术瓶颈，构建高效、稳定、可扩展的大模型解决方案，为交易与广告场景提供强有力的技术支撑。课题挑战： 1、大规模分布式训练加速：大模型训练需处理海量数据和高复杂度计算，导致训练耗时长、资源需求大。如何优化分布式训练架构，提升数据并行、模型并行和流水线并行的效率，是首要技术难题。 2、推理加速和性能优化：交易与广告场景对实时性要求极高，如广告投放需毫秒级决策。如何在资源受限环境下通过模型压缩和推理引擎优化实现快速推理，是关键挑战。 3、异构硬件支持：大模型需适配多种硬件平台。如何实现高效部署和负载均衡，确保跨硬件精度一致性和高性能，是技术难点。 4、编译优化：编译优化是过程复杂，如何开发高效编译器，优化长尾/灵活模型或结构在不同Accelerator执行效率并减少延迟，是亟待解决的问题。 5、Agent工程：智能客服和导购等应用需构建自主决策的AI Agent。如何设计高效的Agent系统，支持复杂任务执行，是前沿挑战。 6、强化学习框架：强化学习在广告投放优化等场景中潜力巨大。如何构建高效框架，支持大规模环境训练和推理，是研究难点。课题内容： 1、大规模分布式训练加速技术 1）研究数据并行、模型并行和混合并行算法，优化训练效率； 2）开发自适应负载均衡机制，减少资源浪费； 3）探索梯度压缩和通信优化技术，降低网络开销； 2、推理加速与性能优化方法 1）研究模型压缩技术（如量化、剪枝），减小模型体积； 2）开发高效推理引擎，支持批量推理和异步处理； 3）针对不同Accelerator的架构加速推理过程； 3、异构硬件支持与优化 1）设计通用部署框架，支持多硬件无缝集成； 2）开发硬件感知调度算法，优化任务分配； 3）研究跨硬件模型迁移技术，确保精度一致； 4、编译优化技术 1）深入优化模型编译器，优化长尾场景的计算开销； 2）研究图优化和算子融合技术，减少计算开销； 3）探索动态优化方法，提升运行时效率； 5、Agent工程与实现 1）设计模块化Agent架构，支持任务分解和决策； 2）开发多模态交互技术，提升用户体验； 3）研究Agent训练与评估方法，优化复杂场景性能； 6、强化学习框架构建 1）开发高效强化学习算法，支持多智能体协作； 2）针对交易与广告场景的训练场景优化训练速度，提升迭代效率； 3）探索强化学习在广告投放中的应用，提升决策效果。

更新于 2025-05-26北京

【26届实习】深度学习推理/训练引擎研发工程师

实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的推理与训练框架； 2、参与推理框架研发优化，包括算子优化、推理架构优化、异构调度等多种技术研发落地等； 3、参与训练框架研发优化，包括数据读取、分布式训练及微调工具链等AI基础设施的建设等； 4、参与多个业务场景中的模型压缩技术实现，对模型进行轻量化压缩，提高训练/推理效率，支持业务降本增效； 5、与公司各算法部门深度合作，参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效； 6、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京|上海