夸克算法实习生-agent算法
任职要求
我们希望你 1. 具备出色的编程与工程实现能力,精通至少一门主流开发语言(如 C/C++、Java、Python 等); 2. 在自然语言处理、计算机视觉、多模态建模或通用人工智能等方向具有良好学术基础与实践能力,熟悉深度学习主流框架(如 PyTorch、TensorFlow); 3. 对大模型训练、多模态理解、Agent 等有一定了解,有…
工作职责
我们诚邀具备扎实算法功底与研究潜力的优秀应届毕业生加入,围绕前沿 Agent 技术的进行探索与应用落地,共同推动智能体技术的发展,您将深入参与: 1. Agent 学习与优化:研究并实现前沿 Agent 训练算法,包括但不限于模仿学习、强化学习等,提升 Agent 的自主决策能力; 2. Agent 架构与能力建设:涵盖 Planning、知识检索、工具调用、长短时记忆等核心模块的设计与优化,构建高智能可扩展的 Agent 框架; 3. 多模态交互与理解:基于 LLM 与多模态技术,构建面向复杂场景的智能体交互系统,实现自然的人机协作; 4. 场景化应用与创新:深度结合业务需求,设计适配不同领域的专业 Agent,打造具备长期价值和强劲竞争力的智能助手产品。
1. 深入探索LLM在深度推理、深度研究(Deep Research)、Code Agent等领域的技术研究,推动AI技术在实际应用中的突破; 2. 立足Multi-Agent应用体系,优化Multi-Agent自动构建、Agent通信语言、Memory机制、Reflection机制等算法方案。 3. 探索工业级的Multi-Agent强化学习算法方案,提升Multi-Agent系统的执行效率和结果对齐准确度。在创新应用场景中,优化长上下文场景的推理算法架构,探索System2技术边界。 4. 与团队成员紧密合作,作为应用算法同学,完成论文产出,同时确保研究成果能够无缝集成到现有创新产品中。

视频理解与表征学习: 参与研究和实现基于Transformer、Diffusion等先进架构的视频理解模型,用于视频场景理解、动作识别、事件预测等任务。 视频生成与控制: 协助探索视频生成模型(如Video Diffusion Models, Sora-like architectures),并研究如何通过自然语言或高级指令(如Agent规划)实现对生成内容的精准控制(如控制物体运动、摄像机视角等)。 Agent决策框架搭建: 参与构建视频领域的AI Agent框架,使其能够根据指令(如“生成一个宇航员在月球后空翻的视频”)自动进行任务分解、调用合适的模型(如生成、编辑、特效模型)并执行多步规划。 仿真环境与评估体系: 参与构建或利用视频仿真环境,用于训练和评估Video Agent的决策能力。设计和开发定量与定性相结合的评估方案,以衡量生成视频的质量和Agent任务完成的准确度。 技术调研与原型验证: 紧跟视频生成、世界模型、AI Agent等领域的最新学术进展(如CVPR, ICCV, NeurIPS等顶会论文),并快速进行代码复现和实验。
1、了解大语言模型及多模态大模型的微调、prompts调优、指令构建与优化,负责将LLM落地在AIGC产品上; 2、负责LLM及多模态大模型的应用相关技术研究,包括但不限于Agents 、RAG、 MCP、prompt工程等,探索大模型应用前沿及新兴应用场景; 3、负责agents相关基础组件的建设,如上下文记忆、deep research、workflow 等,并针对业务需要研发相关的工具集合; 4、了解业务,与公司各技术团队密切配合,能与产品、运营等角色高效沟通需求和目标,发挥自己的主观能动性,设计技术解决方案。