vivoAIGC/多模态算法工程师-实习
任职要求
1、硕士及以上学历,计算机、人工智能相关专业在校生; 2、有扎实的数学功底,熟练掌握矩阵论、随机过程以及各类生成式AI模型理论基础,精通包括T2I、T2V、I2I、I2V、V2V等多模态大模型算法,并熟练掌握这…
工作职责
1、跟进最新的文生图、文生视频、编辑大模型、Agent等方向,输出论文调研报告; 2、参与AIGC(例如文生图、文生视频、图像编辑、视频编辑等)相关大模型训练、算法研发等工作; 3、不断优化现有算法,提高效果、性能和稳定性,确保技术在各种设备和平台上的高效运行,发布研究成果,积极参与行业会议,与学术界和工业界建立并维护良好的合作与交流关系; 4、负责各类影像AIGC前沿研究与算法应用,打造极致且有趣的影像产品,持续迭代优化核心算法模型及整体技术框架,支撑前沿技术产业落地。
1.前沿算法研发 •主导计算机视觉与AIGC核心算法研发(检测/分割/生成/多模态等),推动超分、修复、美化等技术在业务场景落地,实现效果与效率双优化。 •探索Stable Diffusion等生成式模型的应用创新,结合业务需求优化图像生成、智能编辑(如文本驱动编辑、语义修复)等关键技术。 2.工程化落地 •完成算法从原型到产品的全链路开发,解决模型压缩(量化/剪枝)、推理加速(TensorRT/MNN部署)、跨平台适配等工程挑战。 •构建高精度、低延迟的CV pipeline,覆盖图像矫正、去噪、OCR等实际需求。 3.技术前瞻性研究 •跟踪CVPR/ICML等顶会技术动态,针对性研发Diffusion Models、Vision Transformer等前沿模型,建立技术壁垒。
依托淘宝、天猫超大规模商业场景,我们致力于通过最前沿的多模态大模型技术驱动万亿级交易额的增长。在这里你将面对业界最复杂的电商图文、视频语境,与顶尖团队一起探索 AIGC 与多模态技术在搜索广告全链路(召回、排序、创意生成)的深度融合与变现。包括并不限于: 1. 负责电商多模态统一表征: 构建面向海量商品、直播、短视频的超大规模预训练模型(VLM),解决多模态语义对齐、细粒度特征提取及跨模态检索难题。 2. 负责生成式广告物料(AIGC): 探索 Diffusion Model、LLM 在广告创意自动生成(文案、头图、视频步进)中的应用,提升物料投放质量与点击转化率。 3. 负责多模态驱动的商业决策: 将多模态感知能力深度注入广告全链路(从搜索词理解到广告 CTR/CVR 预估),实现从“看懂图片”到“理解意图”的决策升级。 4. 负责全链路多物料优化: 针对商品、直播间、短视频等多类型物料,设计统一的跨模态排序算法,优化搜索场景下的多元流量分配效率。 5. 负责视觉底层技术创新: 针对电商复杂场景,优化 OCR、商品检测、度量学习及视觉搜索等经典任务,建立行业领先的视觉基座。
1、负责vivo影像“AI视效”及各类影像创作类生成式影像前沿研究与算法应用,打造极致且有趣的影像产品,持续迭代优化核心算法模型及整体技术框架,支撑前沿技术产业落地; 2、与产品团队紧密合作,将最新的生成式AI技术融入公司产品和服务中,显著提升用户体验和满意度; 3、不断优化现有算法,提高效果、性能和稳定性,确保技术在各种设备和平台上的高效运行,发布研究成果,积极参与行业会议,与学术界和工业界建立并维护良好的合作与交流关系。