小米顶尖应届-多模态大模型算法研究员-大模型
任职要求
1. 精通机器学习(深度学习),具备卓越的创新研究能力,充满对未知领域的好奇心,热衷于探索前沿技术边界; 2. 编程能力出色,熟练掌握至少两种编程语言,精通Pytorch/Tensorflow,能够将创造性想法快速转化为高效代码; 3. 研究成果丰富,在国际顶级会议或期刊(如NeurIPS、ICLR、ACL、CVPR、COLT等)发表…
工作职责
将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括: 1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性; 2. 探索多模态理解与生成统一的建模方式; 3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧); 4. 研究多模态模型的深度推理范式。 【课题名称】 多模态生成与理解统一模型 【课题内容】 突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。
1. 研发端到端全模态理解和推理大模型,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 端到端全模态理解和推理大模型,建立比较广泛的业界影响力,论文引用数100+、主流算法竞赛/排行榜TOP1、开源Star 1000+等。 【课题名称】端到端全模态理解和推理模型研究与应用 【课题内容】研究端到端全模态理解和推理大模型的核心技术和应用,包括文本、图像、视频、语音等模态输入,文本和语音等模态输出。
1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等 2. 探索多模态理解与生成统一的大模型技术 【课题名称】 视觉生成大模型研究与应用 【课题内容】 研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。
1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向,研发面向机器人感知、理解、预测、决策与动作生成的一体化算法,推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发,包括模型架构设计、预训练、后训练、评测与部署,持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发,提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队,推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向,复现并创新相关方法,推动高水平论文、开源项目及专利产出。
1. 参与领域大模型相关技术的调研验证; 2. 参与手机相机影像相关算法研发工作,开发行业领先的影像大模型算法; 3. 参与手机相机视觉相关功能研发,交付落地旗舰机型; 4. 研究行业动态,紧跟视觉/多模态大模型相关领域最新学术研究成果并转化成商用技术; 5. 参与学术研究,产出具备行业影响力的科研成果。 【课题名称】 影像大模型研发-高优先级功能 【课题内容】 1. 影像领域基础模型的研发; 2. 基于大模型的端到端影像系统研发; 3. 基于大模型影像功能算法的研发,具体到大模型抓拍、TurboRaw; 4. 基于大模型的图像理解、感知算法的研发; 5. 大模型小型化技术探索及研发。