OPPO高级多模态算法工程师(视觉文本方向)-博士
任职要求
1. 计算机科学,人工智能,统计学,数据挖掘,数学,物理等相关专业,在预训练模型,生成算法,计算机视觉,自然语言处理,模型压缩及端侧部署,信息检索,多模态学习等中的一个或多个领域中具备实践经验; 2. 扎实的编程基础,至少熟悉一种常见的深度学习框架(Pytorch, TensorFlow等); 3. 熟…
工作职责
1. 负责多模态大模型的构建,包括数据处理和构造、预训练和后训练算法优化,评测benchmark的构建等 2. 负责多模态大模型的下游算法及应用研究,包括图文问答、视频问答、搜索增强、统一理解和生成模型、多模态创作、多模态总结、多模态检索等; 3. 负责多模态大模型在移动端场景的算法优化和应用落地,包括视觉文本处理、UI界面理解和操作、function call等能力的提升 4. 跟进业界前沿技术,持续提升团队在多模态算法方面的技术积累。
一、核心技术研发 1、主导视频大模型全周期开发(预训练/微调/推理),设计高效模型架构(如Diffusion/Transformer混合结构),优化训练策略与超参数调优; 2、突破多模态对齐技术难点,开发文本/图像/视频跨模态生成算法,提升生成内容的时序连贯性与物理合理性; 3、构建分布式训练框架,实现显存优化、梯度压缩等加速技术,完成千卡级集群的高效资源调度。 二、技术战略与小组统筹 制定文生视频(Text-to-Video)技术路线图,攻克高分辨率(4K+)、长视频(>1分钟)生成等工业级难题,能够统筹算法攻坚小组,协调模型研发、工程部署与产品落地的全流程协作。 三、行业前沿洞察 跟踪全球AIGC技术趋势(如Sora、Runway ML等),保持技术领先性,制定专利与论文策略。
1、负责跟进前沿多模态大模型算法进展,聚焦探索在国际化短视频内容安全方向的应用; 2、通过提升算法技术解决业务在内容理解、内容安全上的切实需求; 3、利用多模态模型识别能力,结合推荐系统技术,降低推荐内容安全风险; 4、具体内容包括:多模态内容理解、多模态内容识别、多模态预训练、内容分发策略优化。
1、参与视觉生成/多模态模型(包括文本、图像、视频生成等)在 GPU、ASIC、FPGA 等异构硬件上的推理/后训练加速开发与软硬件结合的性能优化工作,包括但不限于模型量化、attention优化、显存优化、编译优化、计算与通信优化、内存管理以及多卡或多设备的并行推理方案等; 2、在主流深度学习框架(如 PyTorch)基础上,基于GPU/xPU硬件特点,对关键算子进行软硬件结合优化,提升模型运行效率; 3、与硬件以及算法工程师紧密配合,共同优化整体推理速度与资源占用; 4、跟踪学术界与工业界前沿技术(如扩散模型优化、VAE并行优化、AI编解码、面向机器的编解码等),推动软硬件协同创新。