小米顶尖应届-图像算法研究员-相机
任职要求
1. 计算机相关专业博士学历,图像处理、模式识别、计算机视觉、人工智能、大模型等相关方向; 2. 熟练掌握大模型开发模式,对强化学习、大模型业务转化有深入理解和实际经验; 3. 熟悉基础画质、场景理解等影像基础,了解ISP或者图像后处理算法,如去噪、超分、HDR、人像bokeh等; 4. 熟练使用Tensorflow、Pytorch…
工作职责
1. 参与领域大模型相关技术的调研验证; 2. 参与手机相机影像相关算法研发工作,开发行业领先的影像大模型算法; 3. 参与手机相机视觉相关功能研发,交付落地旗舰机型; 4. 研究行业动态,紧跟视觉/多模态大模型相关领域最新学术研究成果并转化成商用技术; 5. 参与学术研究,产出具备行业影响力的科研成果。 【课题名称】 影像大模型研发-高优先级功能 【课题内容】 1. 影像领域基础模型的研发; 2. 基于大模型的端到端影像系统研发; 3. 基于大模型影像功能算法的研发,具体到大模型抓拍、TurboRaw; 4. 基于大模型的图像理解、感知算法的研发; 5. 大模型小型化技术探索及研发。
1. 画质光影色彩联调方案设计、研发与实现,包括模型架构设计、专家数据集构建、模型场景/模式适应问题解决,模型可调问题解决; 2. 图像“光”“色”的解耦和联动映射算法研发,探索光属性维度和色属性维度联动规则,并将光色联动规则和AI算法相结合; 3. 三维光场隐式表达与光色增强研发,通过神经网络建模真实世界物理光场信息,和Tone mapping方案结合,提升画质真实感和自然度; 4. 相关领域学术进展跟进,学术研究,产出具备行业影响力的学术科研成果。 【课题名称】 光色联调影调增强方案研发 【课题内容】 1. 画质光影色彩共生规则建模,研究图像“光”“色”的解耦算法,探索光属性维度和色属性维度联动规则; 2. 画质光色联调基础模型研发,基于“光”“色”解耦及联动规则,通过AI模型提升画质质感和自然度; 3. 三维光场隐式表达研发,建模真实世界物理光场信息,通过设计神经网络架构,将多曝光信息转化为神经网络隐式表示的三维结构、光照、材质等信息; 4. 三维光场指导的光色增强,将神经网络隐式表达的三维光场信息,指导光色增强,符合真实世界物理规律。
将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括: 1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性; 2. 探索多模态理解与生成统一的建模方式; 3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧); 4. 研究多模态模型的深度推理范式。 【课题名称】 多模态生成与理解统一模型 【课题内容】 突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。
1. 负责各类多模态大模型的预训练,微调和部署,并应用于实际业务中; 2. 探索知识增强技术,通过个人数据提升个性化模型的语言理解和生成能力; 3. 融合多模态数据,攻关具备自主观察环境和推断用户需求的意图决策大模型; 4. 搭建基于端侧VLM的屏幕理解能力,实现具备泛场景能力的GUI Agent; 5. 探索机器学习领域的新技术,探索与其他领域的技术融合。并撰写相关论文,专利。 【课题名称】 OSAgent能力预研:记忆、决策与操控 【课题内容】 1. 记忆:端侧持续进化的数字人格; 2. 决策:精准意图预测的主动智能; 3. 操控:人车家全生态的泛在操控。