小米顶尖应届-图像算法研究员-相机
任职要求
1. 计算机相关专业博士学历,图像处理、模式识别、计算机视觉、人工智能、大模型等相关方向; 2. 熟练掌握大模型开发模式,对强化学习、大模型业务转化有深入理解和实际经验; 3. 熟悉基础画质、场景理解等影像基础,了解ISP或者图像后处理算法,如去噪、超分、HDR、人像bokeh等; 4. 熟练使用Tensorflow、Pytorch等深度学习框架,熟练掌握及理解CLIP、SD、FLUX常见视觉相关大模型,精通模型蒸馏、剪枝模型小型化技术; 5. 熟练掌握C/C++/Python等常用编程语言,熟练使用Linux,Git,Cmake等开发工具; 6. 了解传统计算机视觉的基本理论及方法者优先录取, 在计算机视觉顶会、顶刊发表相关论文或取得优异比赛成绩者优先录取。
工作职责
1. 参与领域大模型相关技术的调研验证; 2. 参与手机相机影像相关算法研发工作,开发行业领先的影像大模型算法; 3. 参与手机相机视觉相关功能研发,交付落地旗舰机型; 4. 研究行业动态,紧跟视觉/多模态大模型相关领域最新学术研究成果并转化成商用技术; 5. 参与学术研究,产出具备行业影响力的科研成果。 【课题名称】 影像大模型研发-高优先级功能 【课题内容】 1. 影像领域基础模型的研发; 2. 基于大模型的端到端影像系统研发; 3. 基于大模型影像功能算法的研发,具体到大模型抓拍、TurboRaw; 4. 基于大模型的图像理解、感知算法的研发; 5. 大模型小型化技术探索及研发。
将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括: 1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性; 2. 探索多模态理解与生成统一的建模方式; 3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧); 4. 研究多模态模型的深度推理范式。 【课题名称】 多模态生成与理解统一模型 【课题内容】 突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。
1. 负责各类多模态大模型的预训练,微调和部署,并应用于实际业务中; 2. 探索知识增强技术,通过个人数据提升个性化模型的语言理解和生成能力; 3. 融合多模态数据,攻关具备自主观察环境和推断用户需求的意图决策大模型; 4. 搭建基于端侧VLM的屏幕理解能力,实现具备泛场景能力的GUI Agent; 5. 探索机器学习领域的新技术,探索与其他领域的技术融合。并撰写相关论文,专利。 【课题名称】 OSAgent能力预研:记忆、决策与操控 【课题内容】 1. 记忆:端侧持续进化的数字人格; 2. 决策:精准意图预测的主动智能; 3. 操控:人车家全生态的泛在操控。
1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等 2. 探索多模态理解与生成统一的大模型技术 【课题名称】 视觉生成大模型研究与应用 【课题内容】 研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。
1. 负责IMU传感器和图像算法应用领域,包括创新功能和技术分析预研,承担前沿技术的算法设计和转化落地; 2. 手机IMU传感器和图像算法潜力挖掘,负责算法理论模型开发和验证,相关专利挖掘和撰写; 3. 手机上的算法部署,利用手机SOC的各种计算单元包括CPU、GPU和NPU,实现模型的压缩、量化和加速; 4. 聚焦于软硬融合底层核心技术探索,负责图像算法关键算子的提取和优化,及算法定制的可行性评估和验证。 【课题名称】 图像&传感器低功耗平台算法预研 【课题内容】 1. AON 眼动追踪算法研究,目标是手机/PAD端落地自研眼动追踪功能,并达到行业领先水准; 2. 触控THP噪声滤波算法优化,进一步降低环境噪声对触控信号的影响,实现触控体验行业领先; 3.下一代手机IMU传感器相关算法预研,基于未来手机传感器算法的预研和验证工作。