vivo图像算法专家(多模态大模型及Agent研发方向)
任职要求
1.计算机科学、电子工程、数学等相关专业硕士及以上学历。 2.至少3年以上相关领域工作经验,拥有从0到1搭建AI项目的经验者优先。 3.在CVPR, ICCV, ECCV, NeurIPS, ICML等顶级国际会议上发表过论文者优先考虑。 4.熟悉TensorFlo…
工作职责
1.参与设计并实现面向手机摄影领域的多模态(图像、视频等)深度学习模型,提升手机拍摄体验。 2.研究开发能够理解用户意图、自动优化照片质量的智能代理(Agent)系统。 3.对现有技术进行持续迭代优化,探索新的应用场景和技术突破点。 4.与产品团队紧密合作,根据市场需求定义项目目标,并推动技术创新成果的应用落地。 5.撰写高质量的技术文档和研究报告,参与相关学术会议或期刊的文章发表。
1.参与设计并实现面向手机摄影领域的多模态(图像、视频等)深度学习模型,提升手机拍摄体验。 2.研究开发能够理解用户意图、自动优化照片质量的智能代理(Agent)系统。 3.对现有技术进行持续迭代优化,探索新的应用场景和技术突破点。 4.与产品团队紧密合作,根据市场需求定义项目目标,并推动技术创新成果的应用落地。 5.撰写高质量的技术文档和研究报告,参与相关学术会议或期刊的文章发表。
深入业务视角,以多模态大数据建模及计算物理仿真为基础,借助AI赋能,帮助半导体工程/工艺/元件特性先行预测与优化,提升工程/工艺/元件研发效率。 工作职责: 1.基于半导体工程/工艺/元件研发需求,开发AI Agent,实现研发流程的自动化与智能化; 2.结合大模型技术(如LLM、多模态大模型等),构建智能化的业务交互与决策系统,提升研发效率; 3.基于产品全生命周期的生产大数据,开发根因查询(RCA)、虚拟量测(VM)、高级工艺控制(APC)、高级机台控制(AEC)等智能化解决方案; 4.开发基于业务驱动的智能工程/工艺/元件设计优化工具,结合物理信息神经网络(PINN)、复杂结构数字孪生、先进材料自动选型等技术,实现研发创新; 5.与半导体研发工程师深入合作,理解业务逻辑,打通数据流,设计并开发能够替代工程师重复操作的AI Agent; 6.探索大模型及AI Agent在半导体研发中的应用场景,推动AI技术与业务需求的深度融合。
1. 负责视觉Agent系统的全链路设计与开发,构建融合多模态感知、动态决策与自动化执行的视觉智能系统,推动复杂场景下的图文多模态/视频理解、交互与生成能力。 2. 负责视觉Agent核心算法的研发与优化,包括但不限于多模态大模型视觉感知、图像生成、多模态对齐(如文本-图像-视频)等方向,持续提升系统的鲁棒性与泛化能力。 3. 研发视觉Agent的协作机制,支持多智能体协同任务(如跨模态推理、工具调用),优化模型在实时性、资源效率及长上下文处理中的表现。 4. 研发大模型在业务场景下关键能力的应用研发,包括但不限于知识和指令遵循、分析诊断、深度推理、反思和评估等能力的优化和落地。 5. 结合业务场景设计并落地视觉Agent应用,赋能业务智能化升级。 6. 跟踪计算机视觉与大模型交叉领域的前沿技术,探索创新技术在实际场景中的落地路径。
地点:深圳/杭州/南京 作为核心算法成员,参与AI图像相关算法研发,主要服务于下一代智能相册系统。主要工作包括: 一、图像理解方向: 1)开发基于多模态语义的图像理解算法:人物识别、事件聚类、情绪识别、场景识别等;构建个性化的图像语义标签体系; 2)设计图像内容质量评估模型(重复、模糊、人脸表情等)提升用户体验; 3)探索RAG、多模态图像大模型、文本大模型联动下,agent能力建设和开发。 二、 图像AIGC方向(创作与编辑): 1)研究并实现图像生成与编辑算法,如背景替换、人像美化、风格迁移、文生图,图生图等; 2)参与基于 Diffusion基础模型训练; 3)参与ControlNet、Inpainting、aigc编辑大模型等前沿应用模型的业务开发和落地;