小鹏汽车机器人动作生成算法实习生
任职要求
- 计算机、人工智能、自动化等相关专业在读硕士/博士; - 具备扎实的深度学习基础,熟悉基础的模型结构(如 CNN、Transformer 等); - 有生成式模型(如 diffusion models、VAE 等)或序列建模(如 motion generation 等)相关经验; - 精通 Python,熟悉 Pytorch,具备扎实的工程能力和良好的代…
工作职责
岗位亮点 - 参与最前沿的具身智能研究,推动人形机器人和智能体的发展; - 用数据和算法驱动机器人自然、拟人、符合物理规律的全身动作生成; - 与资深算法工程师紧密合作,获得生成式模型与机器人交叉领域的实战指导; - 与机器人“零距离接触”,将算法落地到真实机器人体内。 - 协助构建与清洗大规模多模态数据集(音频、文本、动作等); - 跟踪并复现动作生成、人形机器人控制等方向的前沿研究成果; - 参与基于 Diffusion Transformer 或其他生成式架构的全身动作生成模型的训练、调优与评估; - 与运动控制部门紧密协作,确保生成的动作满足机器人运动稳定性与物理可行性要求。
公司介绍 滴滴于 2016 年组建自动驾驶技术研发部门,致力于打造世界领先的 L4 级自动驾驶技术,通过科技让出行更安全、更高效。我们相信,将自动驾驶技术部署在共享出行车队中,将创造最大的社会价值。依托滴滴在出行领域的 先进技术、海量数据、丰富经验和完整的出行平台生态,我们正在打造并运营世界领先的自动驾驶 Robotaxi 车队,推动自动驾驶在城市复杂交通场景中的规模化落地。 职位描述 作为感知团队的一员,你将与国内外顶尖人才一起,研究和开发自动驾驶领域的前沿算法,直接赋能 L4 Robotaxi 的大规模部署。 你将面向真实城市道路场景中的多样化挑战,利用多模态传感器(LiDAR、Camera、Radar 等)设计、开发并优化感知算法,解决物体识别、障碍物检测、场景理解、意图预测与大模型赋能等核心问题。 在这里,你将有机会: 与中美两地的优秀工程师和科学家合作,参与世界级的技术竞争; 深入研究并推动最前沿的学术成果在产业中的落地; 在全球最大出行平台之一的业务场景中,实现科研成果的规模化应用。 主要方向与职责: 你将在以下方向中选定一个或多个方向深入负责,并承担从研发到落地、从算法到系统的端到端职责: (一)物体识别与跟踪 设计并实现基于 LiDAR / Camera / Radar 的多模态检测模型,识别车辆、行人、自行车、静态障碍物、交通标志等 提升精度、召回率与抗扰性(抗遮挡、夜间、恶劣天气、长尾类别) (二)通用障碍物识别 识别未知类别 /未训练类别的障碍物 基于异常检测 /开放类别识别的算法研究与工程实现 在非结构化环境(施工区域、道路损坏、落物等)中提升鲁棒性 (三)场景和意图理解 语义分割、实例分割、道路 /车道/交通标志/交通灯等结构物识别 场景理解,例如施工区域识别、可通行区域识别等 意图理解,例如行人动作识别、起步意图识别等 交互和事件识别,例如多方交互、交通规则冲突、非规范驾驶行为等 (四)感知大模型 /多模态 探索或应用预训练多模态大模型,将视觉、语言、地图/文本信息融合以增强感知能力 零样本 / 少样本 / 跨域泛化的策略研发 将大模型成果迁移到真实车队感知系统中,提升复杂场景下的鲁棒性 (五)模型评估、验证 构建完整的评估管道,包括离线评估 + 真实道路 + 模拟环境测试,支持回归检测与性能监控 指标体系设计 (Precision, Recall, IoU, latency, false positives rate 等)
1、参与团队基于RGB相机的数字人动捕(身体/手指)的研发及效果迭代; 2、参与团队在3D角色动作生成、物理仿真等前沿技术方案的应用落地; 3、负责视觉动捕领域的技术预研,跟进学界SOTA方案; 4、负责相关算法的专利或者论文书写,落地快手业务场景,助力相关产品影响力提升。
岗位介绍 我们正在寻找充满热情、富有创造力的3D生成与重建算法工程师,加入我们的前沿技术研发团队。您将专注于开发先进的3D生成算法,构建下一代三维地图渲染形态,并探索其在多领域的创新应用场景。 主要职责 1. 3D生成算法研发:负责3D物体与3D场景生成算法的开发与优化,探索高效的3D表示方式(如NeRF、3DGS等),并改进扩散或自回归生成模型,提升单图到3D物体或场景生成的精度与稳定性。 2. 3D Mesh驱动算法研发:研发基于自回归架构的3D Mesh自动绑骨与动作序列生成算法,实现通用的3D Mesh驱动。 3. 应用场景探索与落地:探索三维地图的创新应用,推动技术从研发到实际应用的转化。
欢迎加入阿里巴巴数字人团队! 如果你对以下领域感兴趣,并希望在实际项目中积累经验,欢迎加入我们! 你将参与的工作: 个性化数字人形象生成系统 在海量用户数据和先进技术支持下,协助开发能够生成千人千面个性化虚拟形象的系统。 学习并应用基础的图像处理和生成模型,帮助提升系统的定制化能力。 高表现力肢体表情驱动技术研发 参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。 协助优化现有技术,使数字人的表情和动作更加自然流畅,增强情感表达能力。 核心技术难题攻克 在导师指导下,学习和探索基于扩散模型的高质量数字人生成技术。 多模态统一大模型的应用 了解并参与多模态信息融合的研究,结合图像、文本、音频等多种信息,构建具备理解能力和生成能力的数字人系统。 协助解决业界尚未突破的技术瓶颈,推动技术创新。 相关研究课题细分方向: 数字人形象定制与风格化迁移 协助开发和优化数字人形象定制生成能力,适配不同的实时互动场景。 学习并应用基本的图像处理和生成算法,提升系统的灵活性和适应性。 数字人表情与肢体动作驱动 在导师指导下,参与数字人表情和肢体动作驱动技术的研发。 协助测试和优化现有系统,使其表现力更接近真人水平。 数字人多模态理解感知能力 参与构建数字人与用户的实时交互系统,提升其理解和响应能力。 协助进行多模态信息融合实验,增强数字人的个性化服务能力。 我们期待你是: 计算机科学、软件工程、人工智能等相关专业的在校学生(本科或研究生)。 对数字人技术有浓厚兴趣,愿意在实践中学习和成长。 具备一定的编程基础(如Python、C++),熟悉常用的数据处理和机器学习框架(如PyTorch、TensorFlow)者优先。 良好的团队合作精神和沟通能力。 加入我们,你将获得: 丰富的实战经验和前沿技术的学习机会。 导师一对一指导,助力你的职业发展。 参与影响亿级用户的大规模项目,感受技术带来的巨大价值。 开放包容的工作环境和充满活力的团队氛围。 让我们一起定义未来数字人的无限可能,期待你的加入!