小米计算机视觉/多模态大模型算法工程师实习生
任职要求
1.在CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR等人工智能会议上发表论文者优先。 2.硕士及以上学历(优秀本科生亦可),计算机、电子工程、人工智能等相关专业; 3.具备扎实的机器学习/深…
工作职责
1.岗位的主要工作内容为跟踪领域前沿研究,将研究成果投稿到机器学习/计算机视觉顶会顶刊。 2.参与多模态大模型(VLM/VLA)的研发与优化,探索图像、文本、语音等跨模态信息的融合方法,以及在自动驾驶领域的应用。 3.研究并实现前沿的技术(如WorldModel,DiffusionModel等),推动项目落地。

1.参与多模态大模型(VLM/VLA)的研发与优化,探索图像、文本、语音等跨模态信息的融合方法,以及在自动驾驶领域的应用; 2.研究并实现前沿的视觉技术(如Diffusion Model、GAN、VAE等),推动技术落地; 3.配合团队完成算法设计、训练、调优及部署,提升模型性能与工程化能力; 4.跟踪领域前沿研究,撰写技术文档和实验报告,参与论文发表或专利申请。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 若你对以下一个或者多个方向感兴趣均欢迎投递: 1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力,并同时优化多模态大模型的AI infra。 2)通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体,将相关能力拓展到GUI agent,VLA,以及具身智能场景中。 3)研究理解与生成统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责: 1. 多模态 pre-training:开展研究及进行实验,研究内容包括:数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training:迭代 post-training 训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的 test scaling laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。
1. 参与领域大模型相关技术的调研验证; 2. 参与手机相机影像相关算法研发工作,开发行业领先的影像大模型算法; 3. 参与手机相机视觉相关功能研发,交付落地旗舰机; 4. 研究行业动态,紧跟视觉/多模态大模型相关领域最新学术研究成果并转化成商用技术; 5. 参与学术研究,产出具备行业影响力的科研成果。 【课题名称】 影像大模型研发 【课题内容】 1. 影像领域基础模型的研发; 2. 基于大模型的端到端影像系统研发; 3. 基于大模型影像功能算法的研发; 4. 基于大模型的图像理解、感知算法的研发; 5. 大模型小型化技术探索及研发。