小红书Hi Lab-【Ace顶尖实习生】全模态实时交互大模型研究(语音方向)
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底,熟练掌握至少一门编程语言,包括但不限于Python等; 3、有语音/视频等多模态大模型理解技术背景,或大规模模型训练实际项目经验者优先; 4、在ICASSP/Interspeech/ASRU/TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR/ACL等顶级期刊会议上发表相关论文者优先; 5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
工作职责
尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。
本课题的研究目标是优化AI与人类的多模态交互体验,通过研发能够融合文本、视觉和语音等多种模态的自然交互机制,使AI系统能够通过理解图像内容、语音语调和情感等非文本信息增强交互效果。 研究将探索情境感知与个性化适应技术、多轮多模态交互中的意图理解与记忆保持能力,以及跨模态信息的整合与表达方式,使AI系统能够更好地理解用户通过不同感知通道传达的需求,提供视觉和语音层面的情感共鸣,并在长期多模态交互中不断适应用户偏好,实现更加流畅、高效且人性化的人机协作。
本研究方向探索如何使AI系统获得持久记忆与持续学习能力,从根本上改变人机交互的本质。当前AI模型通常缺乏跨会话的记忆保持和经验积累,难以形成对用户的深度理解。我们致力于构建能够记住互动历史、理解个人背景并随时间成长的AI系统,使其不仅能回忆与特定用户的共同经历,还能从这些经历中学习并适应。 研究将关注记忆形成与提取的认知机制、个性化交互模式的动态调整,以及知识持续更新而不遗忘核心能力的平衡策略。这一方向的突破将推动AI从单一功能工具向能够建立长期关系的智能伙伴转变,为未来AI系统打开全新的应用场景和交互范式,使人机协作更加自然、高效且个性化。
本研究方向聚焦于构建兼具强大能力与安全保障的AI系统,确保技术发展与人类价值观保持一致。随着AI能力边界不断扩展,系统性评估其安全性与行为边界变得至关重要。 研究将开发先进的红队测试方法,通过模拟各类攻击场景揭示模型弱点;建立抵御"越狱"尝试的防御机制,使AI在面对误导性指令时维持适当行为;探索价值观对齐技术,使AI能理解并遵循复杂的社会规范与伦理准则。研发量化评估框架,客观衡量AI系统的安全性与符合预期的程度。这一方向旨在构建真正可信赖的人工智能,使其能在发挥最大潜能的同时,始终将人类福祉置于核心位置,为负责任的AI发展提供技术保障。