通义研究型实习生 - 大模型多模态记忆增强研究
任职要求
1. 在读研究生以上学历,具备LLM/RAG/Agent研发经验,第一作者发表过顶级会议论文。 2. 扎实的算法能力,优良的编程风格,熟悉Py…
工作职责
当前大模型(LLMs/MLLMs)在长对话和复杂任务链中面临上下文窗口限制和遗忘问题。尽管扩大上下文长度有所帮助,但其计算和推理成本高昂,且难以实现真正意义上的终身学习和经验累积。另一方面,现有模型在交互中往往缺乏个性化的体验,无法有效地捕捉、存储和召回与特定用户、特定场景相关的多模态经验。为了使大模型具备像人类一样从持续交互中学习、积累和灵活调度的能力,并实现从通用助手到私人智能伙伴的跃升,亟需构建一个高效、多层次、时间敏感的多模态记忆系统。这不仅能突破输入长度限制,还能通过跨模态信息的整合和知识的结构化,大幅提升模型在复杂场景下的鲁棒性、泛化能力和自我进化能力。 大模型多模态记忆增强研究项目,团队在多个方向上进行探索,若你对以下一个或多个课题感兴趣均欢迎投递: 1. 多层次记忆的构建与管理 2. 多模态记忆的嵌入与召回 3. 时间敏感的记忆调度策略 4. 记忆智能体(Memory Agent)的构建
1. 通过研究慢思考、multi-agent协作、大小模型协同等方法提升个性化Agent复杂任务拆解、tool调用、记忆等机制能力; 2. 通过RLHF等反馈增强技术,提升个性化大模型的风格化、复杂指令遵循等Alignment能力; 3. 研究个性化多模态对话、角色生成技术,提升多模态场景下的个性化理解和生成能力; 4. 研究多模态基础大模型基础技术,提升多模态细粒度理解、感知能力,解决多模态场景下的知识幻觉、多图in-context能力等。
职位描述 跟进AI Agent领域最新技术动态,围绕LLM大模型、Agent框架、LLM Reasoning技术(如思维链、多步推理)、优化复杂查询的Deep Research模式、长期记忆机制、自动化数据合成、指令微调(Instruction Tuning)、偏好对齐(RLHF/DPO)等技术,持续推动算法创新与落地。 开展LLM Agent技术研发,构建端到端Agent系统,涵盖意图识别、知识检索、结果生成与偏好对齐,推动相关技术研究与算法落地,提升用户体验。
1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。
职位描述: 1、参与Agent系统的原型构建与落地,探索提升Agent自主理解、规划与执行任务能力的新思路与方法; 2、优化Agent的对话交互机制,尝试新颖的交互方式,以提升用户体验和任务完成的流畅性与智能性; 3、研究并实验Agent的知识整合与上下文记忆管理方案,探索更高效、智能的信息组织与检索技术,支持Agent进行更深层次的思考; 4、探索Agent与系统工具、API的智能协同策略,参与设计和验证更鲁棒、灵活的工具调用与任务规划流程,鼓励提出创新交互方案; 5、针对特定复杂场景,调研并实践Agent解决用户实际问题的创新路径,挑战并拓展Agent的能力边界。