快手多模态推理平台研发工程师-【可灵AI专项】

社招全职3-5年J00112026-06-09地点：北京状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机、软件工程、人工智能、自动化等相关专业优先；
2、3年以上机器学习系统或基础架构研发经验，熟练掌握 Java/Python 语言中的一种；
3、有大规模分布式系统的设计和开发经验，熟悉常见的容器编排调度、数据库、消息队列等配…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、多模态推理工作流架构，设计并实现多阶段分布式推理工作流，支持视觉/文本/音频等多模态内容生成任务，负责大模型服务的端到端开发与部署，包括模型集成、API封装及异构资源调度优化；
2、AIOPS平台建设与协作提效，构建面向大模型业务的全生命周期AIOPS平台，覆盖开发、测试、监控全流程，建设标准化工具链与自动化流程，落地跨团队高效协作范式，加速业务迭代与成果转化；
3、Agent应用开发，支持TOC多模态AIGC任务的编排计算，利用Agent能力辅助用户进行复杂视频生成等。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

Java+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

智能引擎-多模态推理平台研发工程师/专家-杭州/北京

社招1年以上技术类-开发

我们是 HappyHorse 推理工程团队，聚焦行业顶尖的多模态理解和生成模型在 AI 创新应用场景的推理落地，涵盖从推理架构设计、全链路服务编排到性能极致优化的全栈技术挑战。主要工作内容如下： 1. 架构设计：负责跨模态理解与生成的多模态模型HappyHorse 推理平台的架构设计与演进，支持多模态模型从算法实验到大规模生产环境的工程落地； 2. 产品需求迭代：深度参与产品需求讨论，将复杂的业务逻辑转化为高效可扩展的推理框架功能； 3. 框架迭代：负责推理服务流水线（Pipeline）的构建，包括前后处理、多模型编排、高并发请求调度以及容错机制； 4. 可观测性：构建面向AIGC的监控、报警和自动化部署体系，确保大规模推理集群在高负载下的高可用性和低延迟响应。

更新于 2026-07-26北京|杭州

AI推理平台-多模态推理研发工程师-大模型推理团队

社招3年以上

1、负责视频图像生成、多模态语言类模型的推理引擎和服务框架建设，为百炼和广泛的阿里业务线提供高效、稳定、低延迟的模型推理能力。我们建设、开源且同时在内部使用的开源推理引擎包括： LLM类：https://github.com/alibaba/rtp-llm Diffusion类：https://github.com/modelscope/DiffSynth-Engine 2、负责上述推理引擎开发与性能优化，包括高性能CUDA算子开发与融合、混合精度与量化推理、显存生命周期管理，以及Tensor Parallelism等分布式并行策略在多模态模型上的设计与实现，持续提升推理吞吐与延迟指标。 3、负责多模态推理服务框架的架构设计与开发，包括多阶段模型pipeline的请求编排与调度、异构计算资源的混布与隔离、continuous batching与流式推理、多租户资源管理与弹性伸缩，构建高可用、高吞吐的在线推理服务体系。 4、工作地点：北京、杭州，未来会开放「上海」工作地点，现阶段支持员工根据团队安排部分时间在上海办公，详情可与hr或面试官沟通。

更新于 2026-06-09北京|杭州

AI推理平台-多模态推理引擎高级技术专家-杭州/北京

社招5年以上

● 作为核心技术负责人，主导多模态生成模型（视频/图像/语言）推理引擎与服务框架的技术方向与架构演进，服务百炼及阿里各业务线。相关开源项目：rtp-llm、DiffSynth-Engine。 ● 主导推理引擎关键技术攻坚：高性能CUDA/Triton算子开发与融合优化、量化推理方案设计、显存调度策略、TP/PP/EP等分布式并行方案在多模态场景的选型与落地。能够针对新模型架构快速制定优化路线图。 ● 主导推理服务框架架构设计：多阶段异构pipeline编排与调度、异构资源混布与隔离、continuous batching与流式推理、多租户弹性伸缩。具备将单点优化串联为端到端系统性提升的架构能力。

更新于 2026-06-30北京|杭州

多模态推理算法研究员

社招1年以上算法研究类

探索多模态大模型后训练的技术边界，研究提升模型的推理和智能体能力上的最前沿技术，如：强化学习，过程监督，多智能体。参与“日日新”融合模态大模型的研发。从教育、政务等行业的落地应用，抽象和定义模型的核心通用能力点，并且优化通用模型。

更新于 2025-10-27北京|上海|深圳