通义通义实验室-技术专家-语音/多模态
社招全职3年以上技术-基础平台地点:北京 | 杭州状态:招聘
任职要求
1. 计算机科学、人工智能、软件工程或相关领域的硕士或以上学位。 至少5年的AI平台开发经验,不要求有大模型开发经验。 2. 熟悉多种机器学习框架和工具(如 TensorFlow、PyTorch、Hugging Face等)。 3. 对大数据技术和云服务平台(如 AWS、Azure、GCP、阿里云)有深入理解和实战经验。有WebRTC等其他实时通信协议工作经验优先。 4. 扎实的编程能力,精通 Python、Java、C++ 或其他相关编程语言。 5. 对容器化技术(如 Docker、Kubernetes)有丰富的实践经验。出色的分析和问题解决能力,能够独立处理复杂的技术挑战。 6. 良好的沟通能力,能够有效地与团队成员和跨部门合作伙伴协作。
工作职责
团队介绍: 通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API,支持全世界的开发者,以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们一道探索最前沿模型的能力边界,构建以多模态大模型为核心的新产品,向外展示通义的技术先进性和影响力。 职位描述: 1. 探索应用多模态理解与生成大模型,并进行极致端到端系统优化。 2. 建设超低延迟、高可用、可扩展的分布式模型服务系统,支持业务算法生产和高效迭代。 3. 探索构建多模态交互的通用多模态Agent、应用,推动多模态模型的落地和应用,研发以AI技术为核心的新技术、新产品。 4. 分析和解决复杂的软硬件技术问题,提供可靠的技术解决方案。 跟踪行业最新的多模态大模型和应用开发工具和技术,将最佳实践和创新集成到平台中。 5. 撰写技术文档,包括设计规范、操作手册和最佳实践指南。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
AWS+
https://aws.amazon.com/
Amazon Web Services offers reliable, scalable, and inexpensive cloud computing services. Free to join, pay only for what you use.
Azure+
https://azure.microsoft.com/
Invent with purpose, realize cost savings, and make your organization more efficient with Microsoft Azure’s open and flexible cloud computing platform.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Docker+
https://www.youtube.com/watch?v=GFgJkfScVNU
Master Docker in one course; learn about images and containers on Docker Hub, running multiple containers with Docker Compose, automating workflows with Docker Compose Watch, and much more. 🐳
https://www.youtube.com/watch?v=kTp5xUtcalw
Learn how to use Docker and Kubernetes in this complete hand-on course for beginners.
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
相关职位
社招3年以上技术类-算法
负责训练端到端的语音或者多模态大模型,实现语音呼入智能客服的极致体验,不断提升机器占比降低人工占比: 1. 高质量训练数据构建,包括业务数据和通用数据; 2. 模型预训练、微调、后训练等; 3. 协调工程团队开发高效的语音智能客服系统; 4. 根据实际业务问题不断迭代系统提升指标; 5. 跟踪业界最新进展,结合业务进行创新,并沉淀为顶会论文。
更新于 2025-10-13
社招2年以上技术类-算法
1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。
更新于 2025-09-25
社招智能与信息技术
1.负责多模态融合算法、多模态大语言模型的技术探索和创新。 2. 负责大语言模型以及多模态大模型的预训练、精调等研发及落地; 3. 探索Agent在复杂任务中的应用,实现基于LLM的复杂任务在软件研发领域场景的应用落地。