小红书大模型压缩算法研发工程师/专家

社招全职5-10年引擎2025-08-05地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、熟悉蒸馏、剪枝、量化等模型压缩常用方案，参与或主导过大型项目业务落地或有相关论文者优先；
2、熟悉至少一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、探索研发针对大语言模型、多模态大模型、StableDiffusion模型等模型的压缩技术，包括但不限于量化、蒸馏、剪枝、稀疏化等；
2、参与/负责多个业务场景中的模型压缩技术实现，对模型进行轻量化压缩，提高训练/推理效率，支持业务降本增效；
3、参与/负责针对英伟达GPU、华为昇腾NPU等不同的计算硬件，制定不同的模型压缩方案并在业务落地；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

TensorFlow+

PyTorch+

TensorRT+

还有更多 •••

登录查看完整学习资料

相关职位

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

大模型推理框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架； 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设； 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 4、参与/负责构建推理框架的系统容错能力，包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设； 5、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等； 6、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

更新于 2026-03-28北京|上海

高德-多模态大模型/端侧部署算法工程师/专家-视觉团队

社招3年以上技术类-算法

我们是谁？作为中国领先的数字地图内容及导航服务提供商，高德地图日均服务数亿用户出行决策，每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎，持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。团队gihub主页：https://github.com/amap-cvlab 为何加入我们？挑战世界级技术难题，追求智能上限用AI驱动国民级APP的产品迭代和颠覆式创新岗位职责： 1. 多模态大模型研发与应用负责多模态大模型的核心架构设计，研究并实现图片、视频、文本等跨模态特征对齐、融合与表征学习方法，负责多模态大模型的数据准备、高效训练（包括但不限于预训练、SFT、强化学习等）、推理加速等。 2. 模型优化与小型化部署负责多模态大模型的轻量化设计、压缩与加速，确保模型在端侧设备上的高效运行。针对高德地图的实际业务场景，优化模型性能，平衡精度与效率。 3. 创新性研究与落地跟踪端侧生成式AI（Edge Generative AI）、强化学习（PPO、GRPO等）、智能Agent等前沿技术，探索多模态大模型在自动驾驶、智能导航等领域的潜在应用。将研究成果快速转化为实际产品功能，推动技术创新与业务增长。

更新于 2026-02-02北京

阿里云智能-行业解决方案架构师（股份制）-新金融行业线（广州/深圳）

社招3年以上云智能集团

1. 行业解决方案设计与交付 - 基于阿里云大模型技术（如通义千问），为银行、保险、证券等金融客户量身定制AI大模型解决方案，覆盖AI财富助手、智能客服、智能风控等核心场景。 - 深入理解客户业务痛点，提供从需求分析、技术选型到方案落地的全流程支持，确保大模型技术与金融业务深度融合。 2. 大模型全生命周期技术赋能 - 主导客户侧大模型后训练（Post-training）、领域微调（Domain-specific Fine-tuning）、模型蒸馏（Distillation）及多模态融合优化，提升模型在金融垂直场景的精度及性能。 - 优化大模型训练与推理性能，包括分布式训练加速（如DeepSpeed、Megatron-LM）、显存优化、量化压缩（INT8/FP16）及低延迟推理部署（如vLLM、SGLang）等。 3. 工程化落地与性能调优 - 解决金融场景高并发、高稳定性需求，设计高性能计算架构，优化模型在GPU/TPU集群的训练效率及端到端推理链路。 - 结合金融行业数据隐私与安全要求，设计符合监管的模型部署方案。 4. 客户技术赋能与生态共建 - 面向客户技术团队提供大模型技术培训、实战工作坊及POC验证，推动AI能力在客户内部的规模化应用。 - 沉淀金融行业大模型最佳实践，输出白皮书、案例研究及标准化解决方案，提升阿里云在金融AI领域的市场影响力。

更新于 2025-12-09深圳|广州