商汤大模型AIGC算法--视频生成研究员

社招全职算法研究2025-05-20地点：北京状态：招聘

扫码手机上打开

任职要求

任职资格：
1. 计算机、自动化、应用数学等相关专业硕士、博士，特别优秀者可放宽至本科
2. 强烈的技术追求和热情
3. 强大的工程能力，规范的代码习惯 
加分项
1. ACM/NOI/Kaggle等…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位职责：
1. 负责自动驾驶世界模型/视频生成/场景重建的技术研究
2. 负责世界模型在自动驾驶长尾数据生成、闭环仿真场景生成领域的落地，解决实际应用中的关键问题
3. 跟进世界模型相关前沿技术，保持团队在业界的领先性，总结工作成果

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kaggle+

CVPR+

ICCV+

还有更多 •••

登录查看完整学习资料

相关职位

混元AIGC算法研究员（文生图）（深圳/北京/上海））

社招3年以上AI技术

1.通过内容（文本/图像/音频/3D模型等）生成模型的研究优化，解决目前算法在生成质量、多样性、可控性、生成效率等上的问题，并最终有效改善用户体验和生产效能，协助算法的产品化落地； 2.从事图像生成、多模态大模型、小样本学习领域算法训练和优化； 3.结合自有产品和业务需求，从 prompt优化、生成模型研发、adapter研发，性能加速等方面优化Α绘画，AI文字生成，Al视频生成等效果和体验，解决面向业务场景的应用和落地时的算法卡点问题； 4.解决多模态生成模型的工业化部署问题，深入探索模型设计和优化的研发工作。

更新于 2025-09-08深圳

图像/视频AIGC算法研究员（AIGC方向） - 26届蓝极星

校招

我们是影像规划预研部，隶属于vivo影像大团队，主要负责vivo手机Camera模块中长期创新技术规划与预研。我们以图像处理、计算机视觉、AI技术为依托，在拍照、视频、3D、XR等方向打造具有行业竞争力的影像技术和产品，为消费者提供极致的影像体验。 1. 负责vivo影像“AI视效”、“AI消除”及各类影像创作类生成式影像前沿研究与算法应用，打造极致且有趣的影像产品，持续迭代优化核心算法模型及整体技术框架，支撑前沿技术产业落地； 2. 与产品团队紧密合作，将最新的生成式AI技术融入公司产品和服务中，显著提升用户体验和满意度； 3. 不断优化现有算法，提高效果、性能和稳定性，确保技术在各种设备和平台上的高效运行，发布研究成果，积极参与行业会议，与学术界和工业界建立并维护良好的合作与交流关系。

更新于 2025-06-14上海|杭州

混元AIGC算法研究员（多模态生成基模方向）（深圳/北京/上海）

社招腾讯云（TEG）

1.从事多模态生成大模型基础模型算法训练和优化，包括图像生成、视频生成、多模态迭代生成、多模态编辑等； 2.从事基础大模型的组建研发，如Diffusion Models、Autoregressive Models等； 3.从事大模型数据科学的设计与实现，大模型训练和推理加速，确保基础模型的竞争力领先和顺利落地。

更新于 2025-06-16北京

视频创作多模态大模型研究员-智能创作-筋斗云人才计划（北京/上海/深圳）

社招A42385

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。课题介绍：视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展，行业内AI视频创作Workflow不断革新，传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术，旨在研发一套基于大模型的视频创作系统，来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上，可落地支持抖音、剪映Capcut、Flow等业务场景的图片与视频创作及AI工具，形成公司关键业务场景的核心生态壁垒。课题挑战： 1、中长视频多模态理解能力：创作场景需要对用户素材充分理解，因此大模型需要对输入视频的画面、声音及语音等能充分理解，具备素材剪辑处理的通用理解能力； 2、创作领域专业Agent能力：大模型需要具备创作领域AGI的潜力，对于营销、UGC、PGC等不同创作场景，模型需要具备优质视频创作知识储备，能基于原子能力Tools规划合理的Action Sequence完成创作； 3、多模态输出能力：在视频创作领域，需要进行视频效果包装，因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力； 4、高效率模型推理：由于输入视频时长较长，任务复杂，考虑应用落地成本，模型在处理长context的推理效率与实际效果的trade-off依赖技术突破； 5、视觉可控生成与编辑：通过大规模数据的训练，由文本、图片、音频、视频等多模态信息输入引导，生成高质量图像与视频；重点突破保留ID/IP/Style等特征信息的一致性控制技术以及数字人视频生成技术，探索更轻量、更高速、可实时、交互性强的生成技术。

更新于 2025-05-28北京