腾讯混元大模型量化压缩高级算法工程师

社招全职TEG技术2025-05-26地点：北京状态：招聘

扫码手机上打开

任职要求

1.熟悉深度学习算法基本原理，熟练掌握PyTorch，熟悉Python语言；
2.熟悉主流LLM、多模态模型压缩算法，并且了解硬件及推理库上对于模型压缩的支持方案；
3.具有扎实的数理基础，熟悉常见的算法和数据结构，具有良好的编程习惯；
4.了解大模型算法基本原理，熟悉常见LLM或多模态模型。

加分项
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.参与LLM、多模态大模型压缩加速方案研究，包括投机采样、稀疏化、量化和蒸馏等方法；
2.设计可落地的大模型压缩算法及成本优化方案，助力大模型的性能加速；
3.分析业务性能瓶颈和模型特点，定制化开发大模型压缩优化工具，实现高速推理方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

算法+

PyTorch+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

大规模GPU集群调度优化工程师/专家

社招引擎

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！工作职责： 1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

北京|上海

算法平台研发工程师

社招3年以上D2867

1、负责快手搜推广服务的云原生管控方向，建设云上的平台化服务管控、服务调度能力； 2、结合服务场景设计相关调度策略、智能弹性伸缩能力、潮汐混部能力，提高集群硬件利用率。

更新于 2025-04-03北京

搜索架构业务引擎架构师

社招5年以上D2867

负责快手搜索系统的业务引擎架构方向，面向短视频、电商、本地、搜索增长等多业务场景构建大规模业务引擎，支持算法业务的高效迭代。具体职责包括： 1、构建面向各个搜索业务的全链路业务引擎模块，包括策略服务、统一特征服务，排序服务等，支持算法和产运的迭代需求； 2、构建面向在线引擎的全图化引擎架构，提升全链路算法迭代效率和系统优化效率； 3、构建在线混部，动态算力等技术在高可用基础上提升在线引擎算力供给； 4、探索AI智能搜索、AI对话等新业务，探索大模型在搜索的应用落地。

更新于 2025-04-03北京

广告AI基建开发工程师

社招引擎

岗位职责 1. 全链路AI基建开发 * 构建在线模型编排（Model Orchestration）能力，优化百万核级规模模型的资源调度、稳定性治理及跨系统复用。 * 主导特征工程平台（RedFeatureStore）建设，打通离线/在线数据一致性，支持超长序列建模、高商业价值特征探索等场景。 * 设计高性能推理引擎（RankML/RetrievalML），覆盖广告粗排、精排、创意优选等核心链路，实现算力与延迟的极致优化。 2. 下一代AI技术落地 * 推动GPU推理、AI编译器优化（算子融合/自动调优）、边缘存储等技术的深度应用，提升服务性能。 * 探索LLM、RAG、Agent技术在广告场景的应用，重构创意生成、相关性建模等业务的工作流。 3. 工程效能与稳定性 * 主导C++服务框架、容器化、混部资源优化，解决高并发场景下的长尾延迟、CPU利用率等核心问题。 * 构建自动化诊断工具链，提升复杂系统的可观测性与故障恢复效率。

北京|上海