logo of tongyi

通义研究型实习生 - 面向实时交互场景的3D数字人交互式表情动作同步生成技术研究

实习兼职通义研究型实习生地点:杭州状态:招聘

任职要求


1.在读硕士或博士研究生,计算机科学、人工智能、计算机图形学、机器学习等相关专业优先。
2.具备扎实的3D视觉/图形学与深度学习理论基础,熟练掌握 PyTorchTensorFlow 等主流框架,拥有良好的工程实现与算法调试能力。
3.在以下一个或多个方向有深入研究或实践经验:3D/4D数字人建模、重建…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


本项目聚焦于多模态交互数字人技术的前沿探索,旨在基于对话双方的多模态上下文(包括文本、语音、视频等),实现3D数字人表情与肢体动作的实时生成与动态驱动,显著提升数字人的拟人性、情感表达能力与临场感。研究成果将支撑虚拟主播、情感陪伴、沉浸式人机交互等创新应用场景。
包括英文材料
机器学习+
深度学习+
PyTorch+
TensorFlow+
算法+
数字人+
还有更多 •••
相关职位

logo of tongyi
实习通义研究型实习生

随着大语言模型的快速发展,3D虚拟数字人实现自然对话与情感陪伴已成为可能。本项目致力于探索端到端的语音与数字人表情动作同步生成方法,旨在提升3D数字人的交互表现力与响应效率,增强其在对话过程中的真实感和自然度,推动3D数字人在多模态交互场景下的广泛应用。

更新于 2025-05-16杭州
logo of tongyi
实习通义研究型实习生

1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。

更新于 2025-11-21杭州
logo of amap
实习高德研究型实习生

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg)https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHghttps://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 跟进最领先的语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 结合业务场景,探索跨模态(文字/语音/视觉)混合训练的最佳实践,探索基于speech language model的后训练(SFT+RL)技术,持续优化交互响应、交互内容,结合规划agent/工具调用agent,持续提升voice agent的交互体验,从而反馈到高德agent的整体能力; 探索流式全双工对话中,更加高效且合理的模型架构,包括但不限于COT Reasoning in streaming full-duplex等; 海量的语音数据,尤其是对话数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量;

更新于 2026-02-04北京
logo of meituan
实习核心本地商业-业

【课题说明】 Agentic Search是以大模型为核心,具备自主感知、推理与行动能力的搜索新范式。它通过理解用户复杂意图,动态规划搜索路径,主动调用多种工具和数据源,持续优化结果推荐与交互体验。本课题旨在研究和构建面向美团App本地生活服务的Agentic Search系统,探索其在多轮对话、复杂任务分解、实时信息整合等场景下的关键技术与应用价值,推动本地生活智能搜索技术的创新升级。 【建议研究方向】 1.意图理解与任务分解:探索大模型在复杂用户需求下的多意图识别、任务分解、子任务规划能力,提升系统对复合型检索场景的适应性和响应能力。 2.多轮工具调用技术研究:赋予LLM长链路的多轮工具调用能力,打造基于强化学习等前沿技术的LLM后训练方案,提升多轮调用时的精确性及用户的实际交互体验。 3.增量学习训练技术探索:针对本地生活场景中数据不断更新的特点,运用增量学习技术,使 AI 搜索模型能够快速适应新数据。 搜索结果可解释性提升:探索基于大模型内容深度理解与推理的可解释理由生成,增强用户对搜索结果的信任感和透明度。

更新于 2025-05-27北京