小米顶尖应届-感知大模型工程师-汽车
任职要求
1. 人工智能、机器学习、计算机视觉等方向本科及以上学历; 2. 熟练掌握深度学习、计算机视觉或(和)经典多视几何基础理论,有相关项目经验;或者有较强的研究能力优先,如在CV领域发表过第一作者顶会期刊论文(满足一条即可); 3. 优秀的编程能力,熟…
工作职责
1. 负责感知相关任务的研发与交付,包括但不限于目标检测、在线建图、3D重建等; 2. 负责以上方向前沿算法的跟踪与预研。 【课题名称】 L3自动驾驶关键技术研究-感知大模型 【课题内容】 1. 负责感知相关任务的研发与交付,包括但不限于目标检测、在线建图、3D重建等; 2. 负责以上方向前沿算法的跟踪与预研。
1. 负责感知相关任务的研发与交付,包括但不限于目标检测、在线建图、3D重建等; 2. 负责以上方向前沿算法的跟踪与预研。 【课题名称】 L3自动驾驶关键技术研究-感知大模型 【课题内容】 1、负责感知相关任务的研发与交付,包括但不限于目标检测、在线建图、3D重建等; 2、负责以上方向前沿算法的跟踪与预研。
1. 研发端到端全模态理解和推理大模型核心技术,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 研发视觉理解和推理大模型核心技术,在图像理解,视频理解,视觉推理能力增强(关系推理、因果推理、常识推理),GUI屏幕感知和推理、端到端图像翻译等方向创新突破,达到业内一流; 3. 优化语音识别大模型的上下文感知能力,通过送入交互历史信息提升语音识别准确率;优化语音识别大模型的热词感知能力,通过送入相关热词提升语音识别准确率;优化语音多模态理解大模型的SpeechEncoder,提升语音理解大模型的语音理解能力和声音理解能力,包括语音内容、情感、性别、声音事件、音乐风格等;在用户跟智能体对话的过程中,检测用户的表达完整性,从而加快系统响应速度且不带来更多的误截断;在语音对话模型中,检测用户交互的对象,从而提升打断的有效性和系统交互的响应速度; 4. 端到端全模态理解和推理、视觉理解、语音理解等,建立比较广泛的业界影响力,论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等; 5. 端到端全模态理解和推理、视觉理解、语音理解等,落地在小米核心业务场景,提升核心产品竞争力和用户智能体验,包括手机(OS/小爱)、汽车、生态链等。 【课题名称】 端到端全模态理解和推理大模型研究与应用 【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术,产出突破性成果,在小米核心业务场景落地;输入文本、图像、视频、语音等模态,输出文本、语音等模态;探索全模态信息感知能力;探索全模态混合推理思维链;探索全模态思维强化; 2. 研究视觉理解和推理的核心技术和应用,包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等; 3. 研究语音理解大模型的感知关键技术,包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取,用户表述完整性检测等,提升流式交互系统的响应速度和理解准确性等。
1. 多模态感知融合:结合用户的语音、表情、手势姿态、眼动,以及汽车各种传感器状态,实现对模态输入的编码与解码; 2. 利用在线强化学习实现端云结合的大模型基座更新; 3. 基于大模型的生成能力,构建用户反馈行为序列; 4. 构造大模型在线主客观评估体系。 【课题名称】 基于大模型的意图监测 【课题内容】 通过在线强化学习(RL)、多模态感知理解生成技术,实现对用户意图的精准识别和响应。
1. 参与研究与开发融合视觉与语言理解的端到端自动驾驶新范式; 2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力; 3. 探索如何利用VLA增强自动驾驶系统的泛化能力及人机交互的自然性; 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试; 5. 跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态; 6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。 【课题名称】 自动驾驶VLA大模型预研 【课题内容】 探索融合视觉语言行为大模型(VLA)至端到端自动驾驶的新范式,实现更强的自动驾驶泛化能力和更自然的交互方式。