
同花顺Agent算法实习生
任职要求
学历专业: 计算机科学、人工智能、电子工程等相关专业的硕士或博士在读生,特别优秀的本科生也可考虑。 编程与算法基础: 熟练掌握Python和PyTorch/TensorFlow框架,具备扎实的数据结构和算法基础。 计算机视觉基础: 对计算机视觉基础任务(如分类、检测、分割)和深度学习模型(CNN, Vision Transformer)有深入理解。 研究与实践热情: 对视频生成、多模态大模型、AI Agent等方向有强烈的兴趣和好奇心,具备出色的解决问题和自主学习能力。 团队协作精神: 具备良好的沟通能力和团队合作意识。 加分项(具备以下条件者优先): 项目经验: 有视频理解(如动作识别、视频描述)、视频生成/编辑、多模态大模型(Video-LLM)等相关项目经验。 Agent/RL背景: 了解强化学习基础算法或AI Agent框架(如LangChain),有相关项目经验者更佳。 生成模型经验: 熟悉扩散模型、GAN等生成式模型,并有实际的调优经验。 论文复现能力: 有阅读和复现顶级会议论文代码的经验。 工程能力: 熟悉FFmpeg、OpenCV等多媒体处理工具,具备良好的代码规范和工程实现能力。
工作职责
视频理解与表征学习: 参与研究和实现基于Transformer、Diffusion等先进架构的视频理解模型,用于视频场景理解、动作识别、事件预测等任务。 视频生成与控制: 协助探索视频生成模型(如Video Diffusion Models, Sora-like architectures),并研究如何通过自然语言或高级指令(如Agent规划)实现对生成内容的精准控制(如控制物体运动、摄像机视角等)。 Agent决策框架搭建: 参与构建视频领域的AI Agent框架,使其能够根据指令(如“生成一个宇航员在月球后空翻的视频”)自动进行任务分解、调用合适的模型(如生成、编辑、特效模型)并执行多步规划。 仿真环境与评估体系: 参与构建或利用视频仿真环境,用于训练和评估Video Agent的决策能力。设计和开发定量与定性相结合的评估方案,以衡量生成视频的质量和Agent任务完成的准确度。 技术调研与原型验证: 紧跟视频生成、世界模型、AI Agent等领域的最新学术进展(如CVPR, ICCV, NeurIPS等顶会论文),并快速进行代码复现和实验。
1、刷新LLM Agent的能力边界,效果达到世界领先水平; 2、专注于大语言模型(LLM)的前沿技术研究,包括但不限于Pretrain、CPT、SFT、RL,Agent等方向; 3、发表ICLR、COLING、ICML、NeurIPS等顶会论文。
1. 深入探索LLM在深度推理、深度研究(Deep Research)、Code Agent等领域的技术研究,推动AI技术在实际应用中的突破; 2. 立足Multi-Agent应用体系,优化Multi-Agent自动构建、Agent通信语言、Memory机制、Reflection机制等算法方案。 3. 探索工业级的Multi-Agent强化学习算法方案,提升Multi-Agent系统的执行效率和结果对齐准确度。在创新应用场景中,优化长上下文场景的推理算法架构,探索System2技术边界。 4. 与团队成员紧密合作,作为应用算法同学,完成论文产出,同时确保研究成果能够无缝集成到现有创新产品中。
1、出价模型化:搭建广告投放模拟环境,构造智能出价agent算法,开发并评估不同技术选型(MPC、强化学习、生成式)的最佳方案,迭代业界先进经验沉淀paper; 2、端到端延迟建模:电商广告长周期归因场景下,针对回流延迟建设端到端预估模型,包括特殊应用场景大促活动下的时间序列建模,提升广告投放效率; 3、冷启动:研究和优化广告召回、出价算法、排序机制等算法模块,解决客户投放冷启问题,围绕生成式推荐、跨域数据利用、多模态信息进行深度优化探索。
团队介绍:字节跳动剪映研发团队,主要支持剪映、醒图、Faceu 等多款国内外产品的研发工作,业务覆盖多元化影像创作场景,截止2021年6月,相关产品多次登顶国内外App Store 免费应用榜第一,并继续保持高速增长。加入我们,一起打造全球最受用户欢迎的影像创作产品。 课题介绍: 1、课题背景: 1)数字化营销时代,企业对高质量、多样化营销素材的需求呈爆发式增长。从社交媒体图文到短视频广告,从个性化推荐文案到多模态互动内容,营销场景的复杂化与用户需求的碎片化对素材生成效率、创意水平和精准度提出了更高要求。传统依赖人工策划与设计的模式成本高、周期长,难以满足实时化、动态化、规模化的业务需求。尽管生成式AI(AIGC)技术(如GPT等)已在文本、图像生成领域取得突破,但在营销场景中仍面临创意适配性差、多模态协同能力弱、品牌一致性难保障等瓶颈。本课题旨在研发“创作领域Agent”,通过智能技术实现从策略洞察到内容生产的全链路自动化,推动营销效率与效果的革命性升级。 2)随着大语言模型、多模态模型等大模型的成熟,通过视觉理解、语音识别、文本生成等AI大模型能力,提升视频剪辑效率,基于创作者的需求和创意,高效的创作出炫酷、个性化的视频成为了可能。当前行业虽已有部分智能剪辑工具,但大多局限于规则化操作,成片或缺乏对用户意图的理解,效果同质化,或缺乏成片逻辑与情感,机械堆砌素材。 本课题旨在研究适合视频剪辑的大模型技术,结合剪映平台的强大剪辑能力和效果,打造一个智能剪辑的智能体(Agent),赋能自媒体内容生产、影视工业化、广告营销等场景。 2、课题挑战: 1、创意与商业价值的平衡:AI生成内容易陷入同质化,需突破算法在品牌调性理解、用户情感共鸣、营销目标对齐等方面的局限,确保创意兼具新颖性与商业转化价值。 2、多模态动态协同:文本、图像、视频等模态的生成需实现语义与风格的跨模态对齐,且需支持动态组合与实时迭代(如根据用户反馈即时优化素材)。 3、复杂场景泛化能力:营销场景高度细分(如电商促销、品牌故事、危机公关),Agent需具备上下文感知与领域迁移能力,避免“一刀切”生成策略。 4、计算效率与资源限制:高分辨率视觉素材生成、多版本AB测试等场景对算力需求极高,需优化模型轻量化与推理速度,满足企业级部署的可行性。 5、伦理与合规风险:需解决版权争议(如AI生成素材的版权归属)、内容安全(如虚假宣传、文化敏感性)等问题,构建可信可控的生成框架。 6、视频数据复杂性远超图片和文字,巨量的用户素材,要通过大模型去精准理解,并与图片、音频、文字等多模态特征统一,对多模态模型理解能力和推理优化,提出了极高要求。 7、大模型对素材编排和剪辑的结果,可能偏离用户真实意图,既要避免输出模板化、同质化,又要结合用户个性化和创意,在风格、节奏等维度上加入“人性化创意”。 8、大参数模型训练成本高,推理慢,如何通过模型优化、工程优化等手段,给移动端、PC等终端用户极致的体验,也是课题的一大挑战。 职位描述: 1、负责剪映CapCut的AI视频编辑方向的Agent模型训练与评测,使用SFT/RLHF/Post-training等技术对视频创作进行领域知识建模; 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升Pre-trained Model在视频创作的能力,构建行业领先的视频创作专家的智能Agent。