字节跳动多模态算法工程师(Agent方向)-智能创作
任职要求
1、熟悉多模态大模型(VLM)、大语言模型(LLM)相关的算法技术,在相关领域有过良好的项目经验或研究经验,熟悉大模型相关的数据构造方法、Post Training算法; 2、了解LLM架构,熟悉PE工程、AI Agent、Lan…
工作职责
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、基于通用大模型,结合创作垂类应用场景,进行相关的数据建设、指令微调、偏好对齐、模型优化,升数据合成、模型推理 & 规划能力,构建全面客观准确的评测体系,探索提升垂类大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建以智能创作为核心的多模态AI Agent;推动相关的新技术、新产品落地。
多模态推荐算法工程师 (影像Agent方向) 1. 负责影像Agent核心推荐模块的设计与落地:深度参与影像Agent的意图理解与服务推荐,利用多模态大模型技术,让Agent能精准预判用户需求,主动推荐拍摄建议、创作玩法等; 2. 打造智能相册的创作推荐引擎:基于对照片、视频内容的多维度理解(如美学、情感、事件),为用户在相册编辑场景中,智能推荐个性化的模板、音乐、滤镜及包装特效,引爆创作灵感; 3. 主导影像社交App的内容分发与推荐:负责vivo旗下影像社交平台的内容推荐流,结合用户行为和多模态内容理解,探索前沿的推荐模型,提升优秀作品的曝光率、分发效率与用户粘性; 4. 探索前沿技术的应用与创新:跟进多模态大模型、生成式推荐、Agent等领域的最新进展,结合业务场景进行技术预研和方案设计,持续构筑vivo在智能影像推荐领域的技术壁垒;
1.利用计算机视觉和人工智能技术,改进点评笔记、评价等多个点评创作产品的创作体验。 2.参与研发以计算机视觉和人工智能技术为核心的创新型内容玩法。 3.探索MLLM,LLM,VLM等相关算法前沿,应用于业务并解决实际业务问题。 4.负责对业务场景下相关技术问题进行分析、算法设计和上线,全面参与并推动各环节的高效运行,以实现持续的业务价值提升。 5.研究并开发智能Agent系统,优化用户与AI系统的交互体验。

1、参与虎扑内容生态的智能体(Agent)系统研发,构建基于大模型的智能决策与任务执行能力; 2、探索前沿Agent技术路径,结合NLP/多模态/强化学习等方法,打造具备高效感知、理解和行动能力的智能体; 3、推动Agent方案在实际业务场景中的落地,支持智能运营、内容创作、个性推荐等应用; 4、协同产品与工程团队,持续优化Agent系统的性能与用户体验,提升交互智能水平与业务价值。
1、研发智能体算法,提升手机影像系统中模块化组件的自动化决策能力(如场景识别、参数调优、算力分配),包括不限于多智能体协同,混合专家模型,多模态通才模型,视频理解模型开发; 2、场景理解类算法研发工作,辅助智能体、拍照、3A等下游算法的输入; 3、设计面向复杂场景的自主理解决策,优化拍摄全链路的任务调度与资源协同(如AI构图、拍照链路决策,拍照场景智能问答); 4、构建基于强化学习/RAG技术智能体框架,提升相机的智能体验,提升剪辑效率,提升用户出片率; 5、探索Agent技术与3A/AIGC/ISP等算法的深度融合,推动影像系统从“被动响应”向“主动创作”演进。