小鹏汽车【26届校招】视频/时空建模与预训练研发工程师
任职要求
- 熟悉视频表征(TimeSformer、VideoMAE、InternVideo等)之一; - 至少掌握一种主流框架(PyTorch/JAX),有大规模预训练实操; - 有数据治理与高吞吐数据管线经验优先(WebDataset/Parquet、CLIP gate、重复数据检测); - 了解分布式训练与性能优化(FSDP、ZeRO、流水并行、I…
工作职责
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责视频-文本预训练:时空Transformer、Tubelet/patch 合并、时间位置编码、MRoPE/旋转位置等。 - 设计与实现视频采样与多尺度时空建模策略(clip/window、stride、动态帧采样)。 - 构建高效数据流水线:海量视频去重、切分、对齐、字幕/ASR/视觉caption融合与噪声治理。 - 联合训练与蒸馏:多任务(检索/QA/字幕/动作),长上下文与低延迟解码优化。 - 与平台团队协作,优化分布式训练(FSDP/DP+TP/PP、混精度、异构存储与缓存)。
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责将大规模VLM/VLA模型高效部署于定制化芯片(NPU、TPU、ASIC、FPGA、GPU集群等); - 通过高效模型架构、推理图编译、算子融合与低延迟优化等方式,提升模型在各类硬件平台下的吞吐与功耗表现; - 设计并实现高性能推理框架,支持如长上下文、视频时空建模、工具调用等复杂功能; - 负责模型压缩与加速(量化INT8/FP8、蒸馏、剪枝、缓存、流式推理等)相关技术方案落地; - 联合芯片及系统团队,优化内存访问、调度策略、通信结构,达成端到端推理性能突破。
1、负责智能汽车功能使用/亮点视频的出镜讲解,深度参与选题策划、脚本制作; 2、深入了解车型产品功能亮点、使用细节,分析用户的用车场景和痛点,输出表达方式,对内容效果、用户满意度负责; 3、基于数据、用户反馈及时进行视频复盘,输出结论和提升策略; 4、关注短视频内容和平台发展趋势,持续更新内容形式,不断提升内容品质; 5、团队跨部门沟通与协作,确保需求的准确传达和创意内容质量。
1. 负责小鹏汽车AIGC图片与视频内容的创意制作,通过AIGC能力提升科技品牌感知; 2. 利用AIGC技术和工具,参与创作短视频、宣传片、品牌视频等多种类型的视频内容,对视频内容的创意、制作与优化有一定见解。对环境氛围、光影感等有一定理解,能把握整体的输出质量; 3. 结合AIGC图像/视频生成等多形态的创意工具,探索高效创作方式,为最终效果负责;