小米顶尖应届-感知大模型工程师-汽车

校招全职2025-05-22地点：北京状态：招聘

扫码手机上打开

任职要求

1. 人工智能、机器学习、计算机视觉等方向本科及以上学历；
2. 熟练掌握深度学习、计算机视觉或(和)经典多视几何基础理论，有相关项目经验；或者有较强的研究能力优先，如在CV领域发表过第一作者顶会期刊论文（满足一条即可）;
3. 优秀的编程能力，熟…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责感知相关任务的研发与交付，包括但不限于目标检测、在线建图、3D重建等；
2. 负责以上方向前沿算法的跟踪与预研。

【课题名称】
L3自动驾驶关键技术研究-感知大模型
【课题内容】
1. 负责感知相关任务的研发与交付，包括但不限于目标检测、在线建图、3D重建等；
2. 负责以上方向前沿算法的跟踪与预研。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

OpenCV+

学历+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

顶尖应届-感知大模型工程师-汽车

校招

1. 负责感知相关任务的研发与交付，包括但不限于目标检测、在线建图、3D重建等； 2. 负责以上方向前沿算法的跟踪与预研。【课题名称】 L3自动驾驶关键技术研究-感知大模型【课题内容】 1、负责感知相关任务的研发与交付，包括但不限于目标检测、在线建图、3D重建等； 2、负责以上方向前沿算法的跟踪与预研。

更新于 2025-05-22上海

顶尖应届-全模态理解和推理大模型算法工程师-大模型

校招

1. 研发端到端全模态理解和推理大模型核心技术，在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强（关系推理、因果推理、常识推理）等方面做出创新突破，达到业内一流； 2. 研发视觉理解和推理大模型核心技术，在图像理解，视频理解，视觉推理能力增强（关系推理、因果推理、常识推理），GUI屏幕感知和推理、端到端图像翻译等方向创新突破，达到业内一流； 3. 优化语音识别大模型的上下文感知能力，通过送入交互历史信息提升语音识别准确率；优化语音识别大模型的热词感知能力，通过送入相关热词提升语音识别准确率；优化语音多模态理解大模型的SpeechEncoder，提升语音理解大模型的语音理解能力和声音理解能力，包括语音内容、情感、性别、声音事件、音乐风格等；在用户跟智能体对话的过程中，检测用户的表达完整性，从而加快系统响应速度且不带来更多的误截断；在语音对话模型中，检测用户交互的对象，从而提升打断的有效性和系统交互的响应速度； 4. 端到端全模态理解和推理、视觉理解、语音理解等，建立比较广泛的业界影响力，论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等； 5. 端到端全模态理解和推理、视觉理解、语音理解等，落地在小米核心业务场景，提升核心产品竞争力和用户智能体验，包括手机（OS/小爱）、汽车、生态链等。【课题名称】端到端全模态理解和推理大模型研究与应用【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术，产出突破性成果，在小米核心业务场景落地；输入文本、图像、视频、语音等模态，输出文本、语音等模态；探索全模态信息感知能力；探索全模态混合推理思维链；探索全模态思维强化； 2. 研究视觉理解和推理的核心技术和应用，包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等； 3. 研究语音理解大模型的感知关键技术，包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取，用户表述完整性检测等，提升流式交互系统的响应速度和理解准确性等。

更新于 2025-06-25北京

顶尖应届-智能座舱大模型算法工程师-智能座舱

校招

1. 多模态感知融合：结合用户的语音、表情、手势姿态、眼动，以及汽车各种传感器状态，实现对模态输入的编码与解码； 2. 利用在线强化学习实现端云结合的大模型基座更新； 3. 基于大模型的生成能力，构建用户反馈行为序列； 4. 构造大模型在线主客观评估体系。【课题名称】基于大模型的意图监测【课题内容】通过在线强化学习（RL）、多模态感知理解生成技术，实现对用户意图的精准识别和响应。

更新于 2025-06-26北京

顶尖应届-自动驾驶VLA大模型工程师-汽车

校招

1. 参与研究与开发融合视觉与语言理解的端到端自动驾驶新范式； 2. 负责视觉语言大模型（VLA）相关算法的设计、实现与优化，提升模型的环境感知、决策规划能力； 3. 探索如何利用VLA增强自动驾驶系统的泛化能力及人机交互的自然性； 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试； 5. 跟踪VLA及相关领域（多模态学习、大模型等）的前沿技术动态； 6. 发表高水平论文至国际顶会顶刊，参加相关领域的国内外顶级学术会议。【课题名称】自动驾驶VLA大模型预研【课题内容】探索融合视觉语言行为大模型（VLA）至端到端自动驾驶的新范式，实现更强的自动驾驶泛化能力和更自然的交互方式。

更新于 2025-06-26北京