腾讯混元大模型推理研发专家（深圳/北京/上海/杭州）

社招全职3年以上公共技术2026-01-23地点：深圳状态：招聘

扫码手机上打开

任职要求

1.精通 C/C++、Python 编程语言，具备深厚的计算机体系结构功底（深入理解 CPU/GPU 缓存机制、指令流水线、内存层次结构）或大型分布式系统开发经验；精通系统性能调优方法论，熟练使用 perf、gprof、nsight 等调优工具进行底层瓶颈定位；
2.精通 CUDA 核心编程模型（线程束调度、内存 coalescing、共享内存优化），熟悉 OpenCL 等异构编程框架；深入理解 cublas、cudnn、cutlass 等 GPU 加速库底层实现原理与调优策略，能基于硬件特性定制化优化计算逻辑；
3.具备 TensorRT/TensorRT-LLM/FasterTransformer/vllm/sglang 等推理引擎深度实践经验，主导过基于上述引擎的大模型推理系统定制化开发与性能调优；精通推理引擎底层优化技术（算子融合、量化…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.深度协同算法团队，主导深度学习算法端到端推理系统的架构设计与落地实践，聚焦高吞吐、低延时核心目标，攻克大模型推理工程化落地关键技术瓶颈；
2.针对大模型推理全链路进行性能瓶颈深度剖析，通过算子优化、量化策略、资源调度等手段实现推理吞吐最大化；建立性能 - 成本评估体系，制定资源利用率极致优化方案，实现推理成本可控化；
3.主导大模型推理框架底层架构优化，完善框架功能模块（如动态批处理、推理缓存、容错机制）；构建工程化能力体系，提升框架易用性（API 设计、配置化能力）与可调试性（日志系统、性能埋点、调试工具链），支撑大规模推理服务稳定迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

缓存+

还有更多 •••

登录查看完整学习资料

相关职位

大规模GPU集群调度优化工程师/专家

社招引擎

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！工作职责： 1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

北京|上海

算法平台研发工程师

社招3年以上D2867

1、负责快手搜推广服务的云原生管控方向，建设云上的平台化服务管控、服务调度能力； 2、结合服务场景设计相关调度策略、智能弹性伸缩能力、潮汐混部能力，提高集群硬件利用率。

更新于 2025-04-03北京

搜索架构业务引擎架构师

社招5年以上D2867

负责快手搜索系统的业务引擎架构方向，面向短视频、电商、本地、搜索增长等多业务场景构建大规模业务引擎，支持算法业务的高效迭代。具体职责包括： 1、构建面向各个搜索业务的全链路业务引擎模块，包括策略服务、统一特征服务，排序服务等，支持算法和产运的迭代需求； 2、构建面向在线引擎的全图化引擎架构，提升全链路算法迭代效率和系统优化效率； 3、构建在线混部，动态算力等技术在高可用基础上提升在线引擎算力供给； 4、探索AI智能搜索、AI对话等新业务，探索大模型在搜索的应用落地。

更新于 2025-04-03北京

广告AI基建开发工程师

社招引擎

岗位职责 1. 全链路AI基建开发 * 构建在线模型编排（Model Orchestration）能力，优化百万核级规模模型的资源调度、稳定性治理及跨系统复用。 * 主导特征工程平台（RedFeatureStore）建设，打通离线/在线数据一致性，支持超长序列建模、高商业价值特征探索等场景。 * 设计高性能推理引擎（RankML/RetrievalML），覆盖广告粗排、精排、创意优选等核心链路，实现算力与延迟的极致优化。 2. 下一代AI技术落地 * 推动GPU推理、AI编译器优化（算子融合/自动调优）、边缘存储等技术的深度应用，提升服务性能。 * 探索LLM、RAG、Agent技术在广告场景的应用，重构创意生成、相关性建模等业务的工作流。 3. 工程效能与稳定性 * 主导C++服务框架、容器化、混部资源优化，解决高并发场景下的长尾延迟、CPU利用率等核心问题。 * 构建自动化诊断工具链，提升复杂系统的可观测性与故障恢复效率。

北京|上海