OPPO高级CV算法工程师(视觉理解方向)-博士
任职要求
1. 博士及以上学历,计算机、人工智能、电子、自动化等相关专业,具有良好的数学和逻辑思维能力,具备主动学习能力和技术钻研精神 2. 掌握分类、检测、分割等图像理解方向的基础方法与常用优化手段;能熟练使用pytorch、opencv等深度学习框架与工具 3. 能够独立完成工作,同时具有良好的团队协作和沟通能力 4. 具有以下经历者优先:发表过顶会论文,有知名竞赛获奖经历,有高质量github项目
工作职责
1. 参与手机场景下图像理解相关需求的算法开发,包括但不限于场景识别、语义分割、美学评价等 2. 参与图像理解算法相关的数据预处理、模型训练与调优、推理加速等任务;撰写技术文档,协助算法部署与效果验证 3. 探索多模态大模型在手机图像理解场景的应用,如开放世界识别、细粒度分类,复现前沿论文并结合业务场景改进算法的推理速度与精度
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2.探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
1. 负责召回、排序等相关模块,包括但不限于索引构建、向量召回、召回打分、粗排、精排、重排等工作,洞察业务需求,为用户提升更好的搜索体验 2. 负责大语言模型和多模态大模型相关研发。追踪前沿技术热点,开展预训练、sft、强化学习,并应用到搜索业务、推荐业务、AI产品中 3. 负责应用NLP/CV/多模态等相关技术,理解用户生产的内容,技术方向包括但不限于: 图文和视频等内容类型的打标分类、内容质量打标、热点发现、评论分析等;
应用计算机视觉、自然语言处理、多模态理解、数据挖掘与机器学习等技术处理阿里国际数字商业集团海量数据,构建多模态预训练大模型底座,落地前沿研究成果,实现技术理论与业务创新,为电商业务场景的商品理解与结构化、图搜与同款、搜索与推荐、数据分析与决策等各类国际化场景应用构建算法基础能力。 1、负责研发电商多模态预训练模型基座,抽象并解决商品理解的基础问题使得模型具备业务通识能力,并构建针对大模型幻觉问题、推理能力、模型加速等关键问题的系统性解决方案,提高下游业务的迭代效率和效果上限。 2、基于多模态预训练大模型,落地商品理解关键场景任务,比如商品类目/属性/标签预测、商品同款、商品图搜等,实现业务指标提升。 3、学习前沿论文与把握技术趋势,深入理解底层算法原理,探索实验面向未来的硬核技术,实现核心技术突破和技术创新,发表相关论文。