字节跳动具身智能推理性能优化工程师-Seed
任职要求
1、本科及以上学历,计算机/电子/自动化/软件等相关专业,有AI工程优化经验的优先; 2、精通C/C++,精通算法与数据结构,熟悉Python; 3、了解深度学习算法基本原理,熟悉神经网络基本架构和各算子计算方式,了解至少一种深度学习训练框架; 4、熟练使用GPU或NPU高性能编程技术为模型训练或推理加速,例如:CUDA、CUDNN、CUTLASS、Tri…
工作职责
1、负责具身智能相关模型云侧和端侧模型的性能优化和部署; 2、运用性能分析工具,对模型推理过程进行性能剖析,定位性能瓶颈,提出有效的优化方案,并通过实验验证优化效果; 3、通过量化、剪枝、蒸馏、算子融合、Cuda算子编写等性能优化的手段,结合业务需求,将GPU性能发挥到极致; 4、与算法部门深度合作,进行算法与系统的联合优化。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、设计高效且可靠的模型架构优化方案,确保模型在不同规模下的稳定Scaling; 2、探索超大规模模型性能边界,通过混合精度分布式训练,量化部署等方式优化训练和推理过程; 3、研究下一代模型架构,拓展模型在长文本,推理,科学计算、多模态和具身智能等领域的应用场景。
1、机器人基础模型架构设计与开发:如视觉-语言-动作(VLA)模型的算法研发,包括多模态特征对齐、动作序列生成与推理优化,推动模型在机器人操作场景的端到端能力提升; 2、具身智能多模态系统构建:设计融合视觉、语言与动作的联合训练框架,开发基于Transformer或扩散模型的跨模态交互机制,提升模型在复杂动态环境中的语义理解与决策能力; 3、算法性能优化与工程化:针对具身智能硬件平台(如机械臂、移动机器人)优化VLA等模型的实时推理性能,通过算子融合、量化压缩等技术实现低延迟部署。 4、跨模态数据闭环建设:搭建大规模具身智能数据采集与增强系统,设计数据标注与仿真验证工具链,支撑VLA等模型在真实场景的持续迭代。

1. 云侧部署与性能优化:主导世界模型及辅助驾驶的软件架构设计及芯片部署方案落地,综合运用指令集优化、线程调度策略、内存池管理等技术,实现极致性能与资源利用率。 2. 端侧部署与性能优化:面向具身智能与智能驾驶领域的高算力平台,VLA算法方案部署与优化加速; 3. 芯片生态深度协作:聚焦英伟达等主流车载芯片平台,完成模型部署与推理性能调优;结合系统及硬件架构特性,协同芯片厂商实现软硬件本地化定制开发,驱动业务需求落地。
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责将大规模VLM/VLA模型高效部署于定制化芯片(NPU、TPU、ASIC、FPGA、GPU集群等); - 通过高效模型架构、推理图编译、算子融合与低延迟优化等方式,提升模型在各类硬件平台下的吞吐与功耗表现; - 设计并实现高性能推理框架,支持如长上下文、视频时空建模、工具调用等复杂功能; - 负责模型压缩与加速(量化INT8/FP8、蒸馏、剪枝、缓存、流式推理等)相关技术方案落地; - 联合芯片及系统团队,优化内存访问、调度策略、通信结构,达成端到端推理性能突破。