通义通义实验室-技术专家-模型推理服务平台

社招全职3年以上技术类-开发2025-11-06地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、计算机/人工智能相关专业硕士及以上学历，熟练掌握 C++/Python/Java 至少一种语言，有很好的抽象能力；
2、熟练掌握Linux/Posix操作系统下各种概念和原理，了解多线程，异步编程设计和高效的开发、调试方法；
3、熟悉微服务架构、分布式系统设计…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、设计并实现高性能AI原生网关。构建低延迟、高并发的API网关系统，支持多模态、多协议接入，为国内及全球客户提供灵活、安全、可扩展的流量接入方案，提供完整的数据面控制与可观测能力；
2、打造智能推理调度与资源管理系统。设计并实现面向复杂分布式推理场景的请求调度和资源调度系统，结合动态负载特征与异构硬件资源，持续优化请求分发策略；建设Serverless化资源调度架构，实现资源的弹性伸缩与极致利用率提升；
3、构建先进的MLOps平台能力。深度优化模型服务的CI/CD流程，推动算法研发到生产部署的自动化与标准化；实现模型版本管理、灰度发布、监控告警、性能分析等全生命周期管理能力，提升迭代效率与系统稳定性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+++

Python+

Java+

Linux+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-技术专家-大模型应用开发

社招1年以上技术类-开发

通义实验室工程团队致力于打造面向公众与企业的大规模、高性能在线 AI 服务平台，支撑了通义千问、通义万相及多种开源先进模型的在线服务，并推动 AI Agents、多模态应用、MCP 等前沿技术的产品化落地。团队持续攻克异构 GPU 资源调度、多模型多地域部署、多模态任务统一推理、多样化服务等级保障（SLO），以及模型推理全链路工程化的关键挑战，不断提升资源效能和系统的性能、稳定性。 1、负责大规模语言基础模型，多模态模型，文生图、视频生成模型等AI能力的工程化落地工作； 2、支持百炼大模型平台上高代码、低代码平台核心能力的建设； 3、主要负责百炼大模型平台应用广场、MCP广场能生态能力建设。

更新于 2025-11-06北京|杭州

通义实验室-技术专家-推理优化

社招3年以上技术类-开发

1、多模态模型的推理功能开发和性能优化，包括对Qwen-VL、Qwen-Audio、Qwen-Omni等多模态输入/输出模型的功能支持和推理性能优化； 2、分布式推理架构的研发，包括多机推理架构设计，P/D分离、A/F分离、VL模型分离架构的落地； 3、KVCache服务的研发和落地，包括KVCache的存储和传输、与推理引擎、存储等系统的集成，以及端到端的性能优化； 4、推理引擎服务化，包括推理引擎如何接入线上服务平台，自动扩缩容和可观测性的适配，以及提升线上服务稳定性。

更新于 2025-08-14北京|杭州

通义实验室-云端推理服务技术专家-北京/杭州

社招3年以上技术类-开发

1. 设计并构建面向多模态交互（语音、视觉、语言、上下文融合）的云端推理服务平台，支持Omni/Speech/VL等大模型的在线/近线推理。 2. 主导端云协同架构中云端服务模块的技术方案，包括模型服务化（Model Serving）、动态批处理（Dynamic Batching）、请求调度、弹性扩缩容、负载均衡等关键能力。 3. 优化云端推理链路的延迟、吞吐与资源利用率，针对ToB客户对SLA（如99.9% 构建统一的服务治理框架，集成监控告警、日志追踪（如OpenTelemetry）、AB测试、灰度发布、故障自愈等运维能力。 4. 与算法团队紧密协作，推动模型结构适配、量化部署、缓存策略等端云联合优化方案落地。

更新于 2025-11-22北京|杭州

大模型推理服务(MaaS)研发工程师/专家

社招引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。工作职责： 1、参与/负责大模型推理服务平台（MaaS）的架构设计、系统研发、产品研发等工作； 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作，实现千亿级Token并行推理平台； 3、为内部产品线提供解决方案，协助公司内用户解决大模型应用过程中业务在平台上的使用问题。

更新于 2025-10-18北京|上海