logo of mi

小米顶尖应届-视觉生成大模型算法研究员-大模型

校招全职地点:武汉状态:招聘

任职要求


1. 计算机、人工智能、机器学习、电子信息、自动化、应用数学等相关方向博士学历,视觉生成与编辑大模型相关方向;
2. 熟练掌握PyTorchTensorFlow等至少一种常用深度学习框架,熟练掌pythonC++等至少一门编程语言,优秀的算法代码开发能力;
3. 扎实的视觉生成大模型算法基础,深度参与过该领域的算法研究或应用项目,具备跟进领域前沿和算法创新的能力;
4. 在CVPR/ICCV/ECCV/AAAI/ICLR/ICML/NeurIPS/T-PAMI等顶会顶刊发表过视觉生成大模型相关得高水平论文并对论文有实际贡献和深刻理解,或以主力身份参加相关领域主流算法竞赛且取得优秀成绩者优先;
5. 责任心强,有良好的沟通协作能力及团队合作精神。

工作职责


1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等
2. 探索多模态理解与生成统一的大模型技术

【课题名称】
视觉生成大模型研究与应用
【课题内容】
研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。
包括英文材料
机器学习+
学历+
大模型+
PyTorch+
TensorFlow+
深度学习+
Python+
C+++
算法+
CVPR+
ICCV+
ECCV+
ICML+
NeurIPS+
相关职位

logo of mi
校招

1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等; 2. 探索多模态理解与生成统一的大模型技术。 【课题名称】 视觉生成大模型研究与应用 【课题内容】 研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。

更新于 2025-06-25
logo of mi
校招

1. 利用大模型技术支持小爱在各端设备上的Agent跨语言的理解能力; 2. 设计具备长短期记忆能力的智能体架构,运用模型微调、知识编辑、在线学习等技术,使大模型具备记忆的原生能力; 3. 基于SFT、强化学习等后训练方法,指导模型学习正确的“知识检索 - 整合 - 输出”范式,强化大模型对检索结果的筛选、验证与融合能力; 4. 构建覆盖模型准确性(F1值/AUC-ROC)、效率(推理速度/内存占用)、鲁棒性(噪声数据容错)、可解释性(梯度可视化)等多维指标的综合评估体系,构建自动化评估流程和算法。 【课题名称】 认知-记忆-问答链路及自动评估体系研究 【课题内容】 1. 统一地解决Agent对多种语言的理解、以及方言的理解问题 2. 研究智能体对长短期记忆的建模方法,运用模型微调、知识编辑、在线学习、RAG等技术优化大模型的长短期记忆能力,提升智能体的个性化水平 3. 本课题旨在构建集成网络检索知识与大模型生成能力的跨终端智能问答对话系统。通过融合实时网络检索知识,动态扩充模型知识储备,降低模型幻觉风险,提升回答的可信度与时效性。 4. 该课题旨在构建覆盖数据准备、多维度指标评估、自动化工具集成、智能诊断与反馈优化的全链路体系,实现大模型生成效果的闭环评估与问题溯源

更新于 2025-06-25
logo of tongyi
校招通义2026届秋

随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 多模态世界模型前沿技术研究项目,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成、生成驱动的世界渲染引擎、3D/4D生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF视频生成质量提升。 4. 统一Tokenizer研究,包括但不限于:适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer、提高多模态模型的泛化能力和效率。 5. 大模型训练/推理优化,包括但不限于:模型蒸馏、模型剪枝、attention计算近似等高效训练加速策略。

更新于 2025-08-29
logo of tongyi
校招通义2026届秋

近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。 我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。一方面,在迈向AGI的长期路径中,随着大语言模型能力的持续进化,多模态感知、融合与推理等关键问题日益凸显,成为构建通用智能系统的核心挑战;另一方面,围绕典型行业场景(如智能交互、高质量内容生成、跨模态检索与理解等),如何将现有大模型能力有效转化为可落地、可扩展、可持续的解决方案,也成为当前研究与工程实践的重点方向。 如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 1. 多模态大模型算法创新:定义下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模,探寻和解决多模态对齐、推理、Agentic等方面的核心挑战,不断追寻多模态通用大模型的效果上限。 2. 场景驱动的算法创新:结合业务场景(如智能交互、内容生成、跨模态检索等),设计并优化大模型架构,提升效果、效率与鲁棒性。 3. 端到端技术闭环:从数据构建、模型训练、评测到部署,主导技术方案落地,通过AB实验、调用量、用户反馈验证价值。 4. 前沿应用技术探索:紧跟并能驱动LLM、Diffusion Models、强化学习等技术相关进展,定义技术新范式,快速实验并迭代创新方案,拉升相关模型SOTA。

更新于 2025-08-07