logo of mi

小米顶尖应届-视觉生成大模型算法工程师-大模型

校招全职地点:武汉状态:招聘

任职要求


1. 计算机、人工智能、机器学习、电子信息、自动化、应用数学等相关方向博士学历,视觉生成与编辑大模型相关方向;
2. 熟练掌握PyTorchTensorFlow等至少一种常用深度学习框架,熟练掌握pythonC++等至少一门编程语言,优秀的算法代码开发能力;
3. 扎实的视觉生成大模型算法基础,深度参与过该领域的算法研究或应用项目,具备跟进领域前沿和算法创新的能力;
4. 在CVPR/ICCV/ECCV/AAAI/ICLR/ICML/NeurIPS/T-PAMI等顶会顶刊发表过视觉生成大模型相关得高水平论文并对论文有实际贡献和深刻理解,或以主力身份参加相关领域主流算法竞赛且取得优秀成绩者优先;
5. 责任心强,有良好的沟通协作能力及团队合作精神。

工作职责


1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等;
2. 探索多模态理解与生成统一的大模型技术。

【课题名称】
视觉生成大模型研究与应用
【课题内容】
研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。
包括英文材料
机器学习+
学历+
大模型+
PyTorch+
TensorFlow+
深度学习+
Python+
C+++
算法+
CVPR+
ICCV+
ECCV+
ICML+
NeurIPS+
相关职位

logo of mi
校招

1. 利用大模型技术支持小爱在各端设备上的Agent跨语言的理解能力; 2. 设计具备长短期记忆能力的智能体架构,运用模型微调、知识编辑、在线学习等技术,使大模型具备记忆的原生能力; 3. 基于SFT、强化学习等后训练方法,指导模型学习正确的“知识检索 - 整合 - 输出”范式,强化大模型对检索结果的筛选、验证与融合能力; 4. 构建覆盖模型准确性(F1值/AUC-ROC)、效率(推理速度/内存占用)、鲁棒性(噪声数据容错)、可解释性(梯度可视化)等多维指标的综合评估体系,构建自动化评估流程和算法。 【课题名称】 认知-记忆-问答链路及自动评估体系研究 【课题内容】 1. 统一地解决Agent对多种语言的理解、以及方言的理解问题 2. 研究智能体对长短期记忆的建模方法,运用模型微调、知识编辑、在线学习、RAG等技术优化大模型的长短期记忆能力,提升智能体的个性化水平 3. 本课题旨在构建集成网络检索知识与大模型生成能力的跨终端智能问答对话系统。通过融合实时网络检索知识,动态扩充模型知识储备,降低模型幻觉风险,提升回答的可信度与时效性。 4. 该课题旨在构建覆盖数据准备、多维度指标评估、自动化工具集成、智能诊断与反馈优化的全链路体系,实现大模型生成效果的闭环评估与问题溯源

更新于 2025-06-25
logo of tongyi
校招通义2026届秋

随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 多模态世界模型前沿技术研究项目,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成、生成驱动的世界渲染引擎、3D/4D生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF视频生成质量提升。 4. 统一Tokenizer研究,包括但不限于:适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer、提高多模态模型的泛化能力和效率。 5. 大模型训练/推理优化,包括但不限于:模型蒸馏、模型剪枝、attention计算近似等高效训练加速策略。

更新于 2025-08-29
logo of mi
校招

1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26
logo of mi
校招

1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26