通义通义实验室-算法专家-通义灵码&AI Coding
任职要求
1. 人工智能(AI)/软件工程(SE)相关方向的硕士及以上学历,有扎实基础和丰富经验。 2. 曾负责或作为核心同学参与过大模型/代码大模型的训练(预训练、后训练)。 3. 曾负责或作为核心同学参与过大模型的重要应用,有AI Coding应用经验者优先。 4. 有大模型、软件工程等方向国际顶会/顶刊一作论文者优先。 5. 具备优秀的分析问题和解决问题的能力,以及良好的沟通协作合作能力。
工作职责
大模型开启了崭新的智能化时代,代码智能化将是智能化革命的核心力量。围绕AI Coding,从code model到coding copilot再到coding agent,我们进行了深入的技术建设,打造了国内最受欢迎的智能编码助手通义灵码,并不断探索新的产品形态,欢迎一起来做改变世界的代码智能技术,具体详见:https://tongyi.aliyun.com/lingma 职位描述: 1. 负责软件工程大模型(Agentic LLM for Software Engineering)的训练和研究等,包括但不限于Agentic RL、Reward Systems、Environment Scaling等。 2. 打造自主编码智能体的核心技术,包括但不限于Memory、Context Engineering、Tools-use、Reasoning等。 3. 将上述技术在通义灵码及其他创新产品中进行大规模应用落地。
团队介绍: 我们是阿里巴巴通义实验室语音团队,在音频AI领域持续推动技术创新与产业落地。我们的成果包括: 1. ModelScope平台语音/音频板块核心算法团队 2. FunASR、CosyVoice、3D-Speaker等开源社区发起者与核心维护团队 3. 通义听悟(tingwu.aliyun.com)音频及语义算法团队 4. 阿里云智能语音交互及灵积语音模型服务核心算法提供方 岗位职责: 1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。
1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。
1.参与前沿语音生成大模型的研发,涵盖数据体系设计、模型架构设计、训练优化等。 2.探索语音合成、声学建模、自然语言处理等多模态融合技术,提升模型在语音质量、自然度及逻辑推理能力上的表现。 3.针对实际应用场景(音色克隆、情感控制等)优化模型效果和性能,解决复杂技术难题。