logo of oppo

OPPO高级多模态算法工程师(视觉文本方向)-博士

校招全职AI/算法类地点:北京 | 深圳状态:招聘

任职要求


1. 计算机科学,人工智能,统计学,数据挖掘,数学,物理等相关专业,在预训练模型,生成算法计算机视觉自然语言处理,模型压缩及端侧部署,信息检索,多模态学习等中的一个或多个领域中具备实践经验;
2. 扎实的编程基础,至少熟悉一种常见的深度学习框架(Pytorch, TensorFlow等); 
3. 熟…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责多模态大模型的构建,包括数据处理和构造、预训练和后训练算法优化,评测benchmark的构建等
2. 负责多模态大模型的下游算法及应用研究,包括图文问答、视频问答、搜索增强、统一理解和生成模型、多模态创作、多模态总结、多模态检索等;
3. 负责多模态大模型在移动端场景的算法优化和应用落地,包括视觉文本处理、UI界面理解和操作、function call等能力的提升
4. 跟进业界前沿技术,持续提升团队在多模态算法方面的技术积累。
包括英文材料
数据挖掘+
算法+
OpenCV+
NLP+
信息检索+
深度学习+
PyTorch+
还有更多 •••
相关职位

logo of wondershare
社招5年以上

一、核心技术研发 1、主导视频大模型全周期开发(预训练/微调/推理),设计高效模型架构(如Diffusion/Transformer混合结构),优化训练策略与超参数调优; 2、突破多模态对齐技术难点,开发文本/图像/视频跨模态生成算法,提升生成内容的时序连贯性与物理合理性; 3、构建分布式训练框架,实现显存优化、梯度压缩等加速技术,完成千卡级集群的高效资源调度。 二、技术战略与小组统筹 制定文生视频(Text-to-Video)技术路线图,攻克高分辨率(4K+)、长视频(>1分钟)生成等工业级难题,能够统筹算法攻坚小组,协调模型研发、工程部署与产品落地的全流程协作。 三、行业前沿洞察 跟踪全球AIGC技术趋势(如Sora、Runway ML等),保持技术领先性,制定专利与论文策略。

更新于 2025-09-19长沙
logo of baidu
社招MEG

-负责多模态大模型应用层算法研发与调优,涵盖文本、语音、视觉等模态的联合建模与任务优化 -设计并优化多模态对话、生成、检索、问答等核心能力,提升模型在跨模态场景下的推理与交互体验 -与产品、设计、前端团队紧密协作,推动多模态交互在移动端、Web 端及端侧设备上的落地 -持续跟进业界多模态应用进展(如智能助手、AI 修图/视频、跨模态搜索),快速完成技术评估与产品化 -通过数据分析与用户反馈,优化模型效果,提升业务关键指标(DAU、转化率、留存率等)

更新于 2026-03-25北京
logo of bytedance
社招A162050

1、负责跟进前沿多模态大模型算法进展,聚焦探索在国际化短视频内容安全方向的应用; 2、通过提升算法技术解决业务在内容理解、内容安全上的切实需求; 3、利用多模态模型识别能力,结合推荐系统技术,降低推荐内容安全风险; 4、具体内容包括:多模态内容理解、多模态内容识别、多模态预训练、内容分发策略优化。

更新于 2025-02-06上海
logo of aliyun
社招3年以上云智能集团

1、参与视觉生成/多模态模型(包括文本、图像、视频生成等)在 GPU、ASIC、FPGA 等异构硬件上的推理/后训练加速开发与软硬件结合的性能优化工作,包括但不限于模型量化、attention优化、显存优化、编译优化、计算与通信优化、内存管理以及多卡或多设备的并行推理方案等; 2、在主流深度学习框架(如 PyTorch)基础上,基于GPU/xPU硬件特点,对关键算子进行软硬件结合优化,提升模型运行效率; 3、与硬件以及算法工程师紧密配合,共同优化整体推理速度与资源占用; 4、跟踪学术界与工业界前沿技术(如扩散模型优化、VAE并行优化、AI编解码、面向机器的编解码等),推动软硬件协同创新。

更新于 2026-01-09北京|深圳