百度AIGC算法工程师(J72147)
任职要求
-熟悉计算机基础,熟悉python编程、linux使用 -对AIGC有浓厚兴趣,熟悉文生图技术,熟悉…
工作职责
-参与负责文库多模态内容生成方向,负责文生图、AI视频相关调研优化 -参与大模型SFT训练 -参与文生图底模型、lora模型finetune -调研最新的AIGC相关技术在业务中应用
拍立淘是阿里电商核心视觉搜索算法团队,致力于为淘宝搜索核心业务打造行业领先的计算机视觉创新技术,应用于多种电商场景(如拍照搜同款、电商创意AIGC、电商大模型),堪称国内最大的视觉算法应用场景之一。我们紧随技术潮流,不断进行商业和技术创新,期待有志之士的加入,让算法发挥价值,让技术更有影响力。 【招聘方向】 1. AIGC视觉生成(包括但不限于可控图像/视频生成、图像/视频编辑、图像驱动、定制化、试衣等); 2.多模态大模型(包括但不限于大模型预训练、垂域微调SFT、RLHF、数据治理飞轮、训练部署加速等); 3.图像/多模态理解(包括商品多模态理解VG、目标检测、OCR、图像/多模态表征等),其他任何感兴趣/有价值的方向欢迎交流讨论。 【实习工作环境】 1. 充裕的GPU资源,近千张A100/V100 海量业务数据和基础能力积累,帮助高效产出; 2. 来自国内外top学校的师兄/师姐的倾力指导充分尊重实习生个人意见,自由度高; 3. 产研结合,支持鼓励实习生投递顶会论文。

1. 主导多模态生成算法(图像 / 视频 / 3D 等)的设计与优化,聚焦生成质量提升、多样性拓展、可控性强化及可编辑功能实现,攻克技术瓶颈; 2. 深度结合游戏研发与发行业务需求,提供通用性技术框架或定制化算法方案,解决 AIGC 在实际落地中的适配性、效率及效果问题,推动技术转化; 3. 密切追踪多模态与 Generative AI 领域前沿动态(如模型架构、训练策略等),结合业务痛点设计创新性算法路径,保持技术竞争力。
面向AIGC领域,研发前沿的视频生成与处理算法,结合短视频、电商、品牌创意等具体业务场景,进行系统性算法设计,推动自动化剪辑、视频生成、动作迁移、语义驱动等能力落地; 针对当前大模型视频生成中的痛点(如帧一致性、时空建模、长视频连贯性、跨模态对齐等),优化扩散/生成架构、设计稀疏高效推理策略,提高生成质量和响应速度; 开发用于视频创作的底层算法与工具链,包括视频分镜生成、关键帧补全、文本驱动编辑(text-driven editing)、镜头分割与结构化剪辑等能力模块; 持续追踪业界前沿(如Sora、Runway、Kling、Veo等),快速完成benchmark与迁移落地; 深度理解视频内容生产到多渠道分发的完整链路,与产品、运营、创意团队协同,构建适配业务的AI视频引擎与应用原型。