快手AI推理引擎工程师（Y-tech）-【主站】

社招全职D127532025-07-09地点：北京状态：招聘

扫码手机上打开

任职要求

1、熟悉常用AI框架，熟悉计算机体系结构，有并行计算经验，能够深入了解GPU/CPU/NPU全链路相关的加速优化技术；
2、通transformer、CNN、diffus…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

参与AI推理框架的架构设计、或高性能优化、及AIGC diffuision加速等关键技术研究及核心代码开发，更好的服务部门及公司相关AIGC业务，同时一起构建业界具有竞争力的AI深度学习推理框架。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Transformer+

算法+

相关职位

【2027届】大模型推理研发实习生-创作发布

实习引擎

日常实习：面向全体在校生，为符合岗位要求的同学提供为期>3个月及以上的项目实践机会。团队介绍：创作发布团队负责小红书“+”号入口，是全平台用户笔记发布的核心能力模块，承载着内容生成、处理与分发的关键任务。我们希望通过智能化技术，持续提升内容创作效率与用户体验。在这里，AI 引擎工程师将聚焦于结合小红书内部业务特点，对“端 & 云 AI 推理引擎”进行深度优化，从模型能力构建、框架适配，到端云协同部署，推动算法真正落地业务，构建完整的推理闭环。你将接触并支持的算法方向包括：AIGC、文本与多模态大语言模型（LLM）、音频处理、基础视觉等多个前沿领域。这些模型往往结构复杂、实时性要求高，对底层推理性能提出了极高挑战。 1、参与海量大模型异构资源的调度编排、算力池化、弹性资源混布、潮汐资源拆借和Quota管理； 2、参与大模型推理服务的多角色、多阶段、PD分图/EP调度，KVCache-centric调度，实现动态、及时、准确的扩缩容管理； 3、参与通过技术手段实现计算资源、RDMA高速网络资源、缓存/存储资源的最优调度，充分发挥大规模分布式集群算力； 4、参与大模型服务的稳定性，通过线上和线下的多系统联动，实现在多种异构资源（GPU、CPU、其他异构硬件）、多云环境、多种网络流量场景的问题定位、诊断、隔离和快速恢复； 5、参与多机房、多地域、多云场景的在离线任务/服务调度，实现负载的合理化分布。

更新于 2025-10-22北京|上海|广州

AI推理引擎研发工程师-上海

校招操作系统及嵌入式

1. 负责 AI 推理引擎的模型加载、解析、执行等功能研发及测试； 2. 负责 AI 推理引擎的应用开发及验证，性能分析及优化； 3. 负责端到端异构 AI 调度系统的设计开发，优化验证； 4. 负责自动驾驶业务 AI 模型工程适配、实车验证及落地支持。

上海

AI平台推理引擎研发工程师

社招3-5年引擎

1、参与/负责研发面向大规模稀疏参数机器学习模型的等推理服务框架； 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 3、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成； 4、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、推荐系统等；

更新于 2025-10-22上海|深圳

高德-推理引擎工程师-信息研发

社招3年以上技术类-开发

1、主导AI模型推理引擎的架构设计与核心模块开发，优化LLM、CV等模型的低延迟、高吞吐推理性能； 2、深入硬件层（GPU/TPU/端侧芯片）进行算子和计算图优化，实现模型编译、量化压缩、动态批处理等关键技术； 3、探索大模型推理前沿技术（如 speculative decoding、continuous batching、vLLM优化等）； 4、建立推理服务的监控、诊断与调优体系，实现端到端性能瓶颈分析。

更新于 2025-04-09北京