腾讯音乐长音频视觉设计师
任职要求
1.统招本科及以上学历,不少于2年设计工作经验,对娱乐化平台产品感兴趣,并深入使用;
2.具备良好的视觉执行功底和审美水平,熟悉最新的UI设计规范和流行趋势;
3.敏锐洞察目标客…工作职责
1.负责长音频(QQ音乐-听书和懒人听书)相关的UI / 运营视觉设计工作,专业能力扎实,并参与升级体系化的设计规则; 2.基于品牌定位和设计流行趋势,核心参与商业化活动设计; 3.主动关注数据和结果反馈,协同团队相关角色,能良好对接上下游,熟练项目落地全流程; 4.有创意有想法,结合用户和业务角度,持续提出可行的创新提案,并积极驱动实现。
你将参与到小红书下一代 AI native 应用的构建中,通过 Omni Model 技术改变现有 AI 以文字交互为主的形态,负责全模态大模型(Omni Model)的后训练工作,主导音频与文本、视觉协同对齐的整体方案设计与落地,包括并不限于: 1、制定并迭代音频-文本-视觉对齐数据体系,与数据团队合作构建高质量、多样化、有审美的跨模态数据,并提升端到端模型的语音理解和表达能力。 2、基于 SOTA omni 基座模型,在语音、视觉、文本长序列混合后训练中,通过多种训练方法保证语音能力充分发挥的同时,又不削弱模型智商与图文表现。 3、构建语音质量与语义一致性的 Reward 模型;通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL 技术提升模型在实时对话中的语义、情绪理解能力,语音表达的自然度、逻辑一致性。 4、与工程、产品团队协同,把实验成果快速迁移到线上服务,并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升。

1、视频理解算法研发与多模态分析:1)主导视频内容理解算法的端到端研发,覆盖动作识别、事件检测、微表情及情感语义分析,构建从数据预处理到模型部署的全流程方案。2)设计例如基于Video Swin Transformer、3D CNN及CLIP等的多模态分析框架,实现“视觉-音频-文本”多维度内容解析。3)探索前沿技术如可控视频理解、物理引擎整合,提升复杂场景下的语义解析精度。 2、智能剪辑系统设计与自动化流程:1)开发基于多模态的智能剪辑框架,实现镜头分割、关键帧提取及内容摘要的自动化处理。2)设计自然语言交互式剪辑工具,支持用户通过文本指令或语音交互完成视频编辑,提升创作效率。 3、多模态交互与场景落地:涉及自然语言交互式编辑工具,支持用户通过对话逐步细化生成内容,提升创作自由度。 4、技术落地与产品化:1)与工程团队协作,将算法集成至业务系统,解决实际场景中的挑战。2) 设计标准化工具链,支持用户通过简单接口调用生成能力。 5、可独立进行跨部门技术方案评审,协调各方需求确保项目按时交付。跟踪国际顶会最新前沿技术成果,定期组织技术分享。指导初级工程师,建立算法知识库和代码库。
面向AIGC领域,研发前沿的视频生成与处理算法,结合短视频、电商、品牌创意等具体业务场景,进行系统性算法设计,推动自动化剪辑、视频生成、动作迁移、语义驱动等能力落地; 针对当前大模型视频生成中的痛点(如帧一致性、时空建模、长视频连贯性、跨模态对齐等),优化扩散/生成架构、设计稀疏高效推理策略,提高生成质量和响应速度; 开发用于视频创作的底层算法与工具链,包括视频分镜生成、关键帧补全、文本驱动编辑(text-driven editing)、镜头分割与结构化剪辑等能力模块; 持续追踪业界前沿(如Sora、Runway、Kling、Veo等),快速完成benchmark与迁移落地; 深度理解视频内容生产到多渠道分发的完整链路,与产品、运营、创意团队协同,构建适配业务的AI视频引擎与应用原型。