腾讯多模态大模型算法工程师-深圳/北京
任职要求
1.计算机科学、机器学习、人工智能、应用数学等相关专业,硕士及以上学历; 2.在多模态理解相关领域(包括自然语言处理、计算机视觉、语音理解/生成等)有扎实的研究基础,熟悉一个或多个模态领域的主流模型和算法,如CLIP、LLAVA、VALL-E等; 3.熟悉深度学习框架,如TensorFlow或Pytorch;了解分布式训练框架,如De…
工作职责
1.负责多模态大模型相关技术研究和开发,包括跨模态对齐、多模态理解等任务,研发业界领先的多模态大模型; 2.持续跟进业界最新的多模态大模型算法,参与多模态大模型的设计、训练、调优及评测工作,并推进多模态大模型在业务场景的应用落地。
团队介绍:负责影像业务剪映、醒图等创作工具的增长、内容分发和商业化的算法,以及数据科学相关工作,致力于激发用户创作灵感、优化创作效率和提高所创作内容的价值,并完成增长与商业化变现。 课题介绍:剪映CapCut创作工具需要更自动化的扩大模版与素材的供给,降低创作过程的难度,本课题旨在通过AIGC根据当前热点,推荐,搜索等分发线索自动生成模版、素材、音乐,大规模补充模版与素材供给,为用户提供更多创作灵感,以及根据用户上传素材,AIGC辅助自动成片。 1、基于多模态大模型(LLM/视觉/音频)技术,研发自动化内容生成系统,通过分析热点、搜索趋势及用户行为数据,构建动态生成模型,实现视频模板、风格化素材、场景适配音乐的规模化生产,提升创作工具的内容供给多样性; 2、研究用户意图深度理解模型,通过用户上传的原始素材(图片、视频片段、文字描述)分析创作目标,构建端到端的自动成片Pipeline,实现镜头分割、转场特效生成、字幕匹配、音乐适配的全流程AI化; 3、设计跨模态对齐算法,解决图文/视频/音乐的多维度语义匹配问题。
1、负责视频/图片创作Agent的核心研发与应用,聚焦高质量数据建设,包括数据挖掘清洗对齐、多领域的数据自动合成、创意库构建等,优化Agent全链路的生成效果; 2、多模态大模型的训练与优化,实现模型在理解、生成、编辑和控制等关键能力上的全面提升; 3、建立并迭代多模态数据的质量评估体系、模态对齐机制与覆盖策略,探索数据与模型的共进化反馈体系; 4、结合实际业务场景,将创新性技术方案高效落地,服务成千上万创作者,推动内容创作AI能力的持续突破。
1、负责视频/图片创作Agent的核心研发与应用,聚焦高质量数据建设,包括数据挖掘清洗对齐、多领域的数据自动合成、创意库构建等,优化Agent全链路的生成效果; 2、多模态大模型的训练与优化,实现模型在理解、生成、编辑和控制等关键能力上的全面提升; 3、建立并迭代多模态数据的质量评估体系、模态对齐机制与覆盖策略,探索数据与模型的共进化反馈体系; 4、结合实际业务场景,将创新性技术方案高效落地,服务成千上万创作者,推动内容创作AI能力的持续突破。