logo of tongyi

通义研究型实习生-基于大模型的端到端语音同传技术探索与研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、博士/硕士研究生,计算机、数学、计算法学等相关专业优先。
2、有扎实的机器学习深度学习自然语言处理理论基础,对大模型相关技术研究感兴趣。
3、在相关顶会或期刊发表论文、在高水平技术评测或竞赛中获得Top成绩、在开源组织有贡献或影响力者优先。

工作职责


多语言语音交互以其直观便捷的特性,在同声传译、跨国沟通及多语言辅助工具等领域展现出超越文本的自然互动优势。语音的独特价值在于它蕴含情感、语调、环境背景乃至说话者的性别与方言信息,这些额外维度极大丰富了信息内容。OpenAI的GPT4o及Google的Astra等前沿成果,彰显了卓越的多语言语音助手性能,震撼业界。我们拟探索多语言文本语音对齐技术,构建多语言、低延迟、可控的多语言同声传译翻译系统。
包括英文材料
机器学习+
深度学习+
NLP+
大模型+
相关职位

logo of tongyi
实习通义研究型实习生

以ChatGPT为开端的语义大模型的解锁,激起了大模型的热潮。而在Chat这类交互体系下,口语语言理解是其下一个重要的技术分支;例如 交互数字人 场景下,Agent如何接收并理解语音转写的用户输入,进行思考、推理并生成符合对话场景的回复用于下游语音合成模型播报。同时,国外近期推出的GPT4o、Gemini-Pro等演示中都展示端到端低时延、自然度高的多模态交互系统。 本项目主要围绕 语音语义大模型 在语音对话场景的应用展开,探索 如何达到低时延的多模态交互,包括 语音语义联合建模、端到端全双工交互、高表现力的口语对话 方向

更新于 2024-08-13
logo of alibaba
实习淘天集团研究型实

阿里妈妈-智能广告平台团队负责阿里妈妈核心广告产品的广告主投放效果优化、广告产技能力创新和客户增长。我们通过挖掘广告主多元需求,升级智能投放能力提升投放效果,带动广告预算增长。技术上,我们通过基于大模型、生成算法、强化学习的出价Agent对智能出价系统进行深度优化。 我们在智能出价领域有丰厚的技术底蕴,在NeurIPS、KDD、WWW等国际高水平会议上发表学术论文,并通过技术创新显著提升业务效果。决策智能技术是人工智能的关键研究领域,在大型博弈环境中有广泛应用,例如在线广告、金融市场、电子商务和能源交易。在线广告是典型的大型博弈场景,随着生成算法在广告决策领域的初步成功应用,我们相信决策领域的大模型蕴藏着巨大潜力和广阔的技术探索空间。 具体职责: 1. 深入运用生成算法(如Diffusion、Transformer等)对出价决策模型进行探索与迭代。 2. 探索大模型(LLM)与出价决策模型的融合方案,包括但不限于特征增强、环境建模、端到端决策等。 3. 跟进业界前沿技术趋势,开展前沿算法的研究工作,撰写发表论文。结合实际业务需求,将技术应用到实际业务场景。 加入我们,您将获得: 1. 贴近工业实践的技术挑战,享有丰富的数据资源和强大的计算支持。 2. 深度参与研发团队内部研讨,与顶尖专家共同探讨前沿技术,合作发表国际顶级会议论文。 3. 一对一的行业专家指导,助力业界领先并具有巨大影响力的工作。 4. 可观的实习薪酬以及校招人才计划的绿色通道。

更新于 2025-08-11
logo of amap
实习高德研究型实习生

我们正在寻找对世界模型与端到端自动驾驶技术充满热情的算法实习生,加入我们的前沿技术研发团队。您将专注于端到端自动驾驶算法的研发,推动其在智能驾驶中的落地应用,为用户提供更安全、更高效的出行体验。 主要职责 1、世界模型与建图研发:开发基于多传感器融合的世界模型,实现高精度地图构建与动态场景理解。 2研究基于NeRF、3DGS等技术的三维场景表示方法,提升地图生成的效率与精度。探索语义地图构建技术,结合深度学习实现道路、车道线、交通标志等元素的自动标注与更新。 3、端到端自动驾驶算法研发:研究端到端自动驾驶算法,结合强化学习、模仿学习等技术,实现从感知到决策的全流程优化。开发基于Transformer架构的多模态融合模型,提升自动驾驶系统的鲁棒性。 4、优化端到端模型的推理速度与计算效率,支持实时决策与控制。模型优化与性能提升:针对自动驾驶场景,优化模型的推理速度和资源占用,确保高性能与低延迟。 5、探索适合大模型的压缩与加速技术(如量化、剪枝、知识蒸馏),适配车载硬件平台。 6、前沿技术探索:持续跟踪世界模型、端到端自动驾驶、具身智能等领域的最新技术趋势。提出创新性解决方案,结合业务需求推动技术突破。

更新于 2025-03-27
logo of tongyi
实习通义研究型实习生

1、研究与算法实现: (1)参与图数据库代码知识图谱的构建与优化,借鉴最新的 RepoAudit 等研究成果。 (2)设计并实现基于强化学习(RL)的探索与反馈循环,包括智能体、动作空间、奖励机制。 (3)实验和优化多种RL策略(如PPO、DPO、GRPO、DAPO、GSPO)在真实图数据库测试场景的应用。 2、系统开发与实验: (1)构建可编译运行的图数据库测试平台,负责自动化测试流程(提出预言机→生成用例→执行验证→反馈奖励)的实现。 (2)针对开源图数据库(NeuG、Neo4j、RedisGraph、NebulaGraph等),验证并提交新型逻辑错误。 3、论文与成果输出: (1)参与撰写技术报告和学术论文,总结测试预言机生成的新方法与实验结果。 (2)协助开源端到端研究原型及技术文档的完善与维护。

更新于 2025-09-24