百度AIGC算法实习生 - 多模态理解方向(J98723)
任职要求
1. 计算机科学、人工智能或相关领域在读硕士或博士,博士优先
2.对多模态大模型、视频理解等技术有浓厚兴趣,顶会上有论文者优先
3.熟悉多模态推理模型的优先,熟悉PPO、DPO、GRPO等强…工作职责
1. 协助团队进行多模态大模型相关研究,包括高效微调、多模态理解对齐、幻觉消除、强化学习、数据治理部署优化等相关工作 2. 参与项目的算法验证和优化,确保算法的效率和准确性 3. 协助进行文献调研,总结最新的技术趋势和研究进展 4. 参与团队内部的技术交流和分享会议
岗位职责: 1. 基于不同的多模态大模型或者视觉生成模型来解决业务所面临的挑战,包括但不限于视频主观质量评价,图像视频超分等。 2. 深入调研和关注视觉模型等方向的前沿技术,将前沿技术在业务上落地。 3. 在视觉感知/视频质量评价/图像视频超分领域做出单点研究突破,发表高质量论文。
1.跟踪和探索前沿生成式技术,包括但不限于多模态技术、大语言模型、可控图像生成、图像编辑、视频生成等。 2.研究和应用相关技术,帮助技术在实际业务(内容、广告、智能创作等)的落地。 3.具备一定的论文撰写能力和科研能力。
1.跟踪和探索前沿生成式技术,包括但不限于多模态技术、大语言模型、可控图像生成、图像编辑、视频生成等。 2.研究和应用相关技术,帮助技术在实际业务(内容、广告、智能创作等)的落地。 3.具备一定的论文撰写能力和科研能力。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 1、研发图像视频生成、图像视频编辑、图像视频理解等多模态大模型的算法加速技术,通过步数蒸馏、CFG蒸馏、Cache、参数高效化设计、投机解码等模型层优化手段,实现生成效率数量级提升; 2、参与生成式模型的创新算法研究,攻克Diffusion模型加速、多模态理解生成统一建模加速等技术方向; 3、分析模型和任务性能瓶颈,通过算法优化提升模型推理效率,优化视觉大模型,推动字节跳动AI关键业务发展。