小米顶尖应届-视觉生成大模型算法研究员-大模型
任职要求
1. 计算机、人工智能、机器学习、电子信息、自动化、应用数学等相关方向博士学历,视觉生成与编辑大模型相关方向; 2. 熟练掌握PyTorch、TensorFlow等至少一种常用深度学习框架,熟练掌python、C++等至少一门编程语言,优秀的算法代码开发能力; 3. 扎实的视觉生成大模型算法基础,深度参与过该领域的算法研究或应…
工作职责
1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等 2. 探索多模态理解与生成统一的大模型技术 【课题名称】 视觉生成大模型研究与应用 【课题内容】 研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。
1. 画质光影色彩联调方案设计、研发与实现,包括模型架构设计、专家数据集构建、模型场景/模式适应问题解决,模型可调问题解决; 2. 图像“光”“色”的解耦和联动映射算法研发,探索光属性维度和色属性维度联动规则,并将光色联动规则和AI算法相结合; 3. 三维光场隐式表达与光色增强研发,通过神经网络建模真实世界物理光场信息,和Tone mapping方案结合,提升画质真实感和自然度; 4. 相关领域学术进展跟进,学术研究,产出具备行业影响力的学术科研成果。 【课题名称】 光色联调影调增强方案研发 【课题内容】 1. 画质光影色彩共生规则建模,研究图像“光”“色”的解耦算法,探索光属性维度和色属性维度联动规则; 2. 画质光色联调基础模型研发,基于“光”“色”解耦及联动规则,通过AI模型提升画质质感和自然度; 3. 三维光场隐式表达研发,建模真实世界物理光场信息,通过设计神经网络架构,将多曝光信息转化为神经网络隐式表示的三维结构、光照、材质等信息; 4. 三维光场指导的光色增强,将神经网络隐式表达的三维光场信息,指导光色增强,符合真实世界物理规律。
1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等; 2. 探索多模态理解与生成统一的大模型技术。 【课题名称】 视觉生成大模型研究与应用 【课题内容】 研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。
1. 利用大模型技术支持小爱在各端设备上的Agent跨语言的理解能力; 2. 设计具备长短期记忆能力的智能体架构,运用模型微调、知识编辑、在线学习等技术,使大模型具备记忆的原生能力; 3. 基于SFT、强化学习等后训练方法,指导模型学习正确的“知识检索 - 整合 - 输出”范式,强化大模型对检索结果的筛选、验证与融合能力; 4. 构建覆盖模型准确性(F1值/AUC-ROC)、效率(推理速度/内存占用)、鲁棒性(噪声数据容错)、可解释性(梯度可视化)等多维指标的综合评估体系,构建自动化评估流程和算法。 【课题名称】 认知-记忆-问答链路及自动评估体系研究 【课题内容】 1. 统一地解决Agent对多种语言的理解、以及方言的理解问题 2. 研究智能体对长短期记忆的建模方法,运用模型微调、知识编辑、在线学习、RAG等技术优化大模型的长短期记忆能力,提升智能体的个性化水平 3. 本课题旨在构建集成网络检索知识与大模型生成能力的跨终端智能问答对话系统。通过融合实时网络检索知识,动态扩充模型知识储备,降低模型幻觉风险,提升回答的可信度与时效性。 4. 该课题旨在构建覆盖数据准备、多维度指标评估、自动化工具集成、智能诊断与反馈优化的全链路体系,实现大模型生成效果的闭环评估与问题溯源
随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 多模态世界模型前沿技术研究项目,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成、生成驱动的世界渲染引擎、3D/4D生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF视频生成质量提升。 4. 统一Tokenizer研究,包括但不限于:适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer、提高多模态模型的泛化能力和效率。 5. 大模型训练/推理优化,包括但不限于:模型蒸馏、模型剪枝、attention计算近似等高效训练加速策略。