通义通义实验室-技术专家-语音/多模态
任职要求
1. 计算机科学、人工智能、软件工程或相关领域的硕士或以上学位。 至少5年的AI平台开发经验,不要求有大模型开发经验。 2. 熟悉多种机器学习框架和工具(如 TensorFlow、PyTorch、Hugging Face等)。 3. 对大数据技术和云服务平台(如 AWS、Azure、GCP、阿里云)有深入理解和实战经验。有…
工作职责
团队介绍: 通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API,支持全世界的开发者,以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们一道探索最前沿模型的能力边界,构建以多模态大模型为核心的新产品,向外展示通义的技术先进性和影响力。 职位描述: 1. 探索应用多模态理解与生成大模型,并进行极致端到端系统优化。 2. 建设超低延迟、高可用、可扩展的分布式模型服务系统,支持业务算法生产和高效迭代。 3. 探索构建多模态交互的通用多模态Agent、应用,推动多模态模型的落地和应用,研发以AI技术为核心的新技术、新产品。 4. 分析和解决复杂的软硬件技术问题,提供可靠的技术解决方案。 跟踪行业最新的多模态大模型和应用开发工具和技术,将最佳实践和创新集成到平台中。 5. 撰写技术文档,包括设计规范、操作手册和最佳实践指南。
团队介绍: 通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API,支持全世界的开发者,以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们一道探索最前沿模型的能力边界,构建以多模态大模型为核心的新产品,向外展示通义的技术先进性和影响力。 职位描述: 1. 探索应用多模态理解与生成大模型,并进行极致端到端系统优化。 2. 建设超低延迟、高可用、可扩展的分布式模型服务系统,支持业务算法生产和高效迭代。 3. 探索构建多模态交互的通用多模态Agent、应用,推动多模态模型的落地和应用,研发以AI技术为核心的新技术、新产品。 4. 分析和解决复杂的软硬件技术问题,提供可靠的技术解决方案。 跟踪行业最新的多模态大模型和应用开发工具和技术,将最佳实践和创新集成到平台中。 5. 撰写技术文档,包括设计规范、操作手册和最佳实践指南。
1、嵌入式AI系统开发: • 负责RTOS系统平台上多模态AI终端产品的研发,包括方案评估、软件架构设计、核心功能模块(如人脸/手势识别、行为分析)开发与部署; • 主导端侧AI模型轻量化、跨平台推理框架适配(TensorFlow Lite/MNN/NCNN)及NPU芯片的性能优化(如内存、功耗、实时性); • 结合硬件特性设计轻量化模型架构,完成从算法训练到嵌入式端侧部署的全链路开发。 2、多模态算法工程化: • 优化计算机视觉算法在嵌入式设备(IoT/AR硬件/AI机器人)的落地效果,解决低算力、高延迟、多干扰场景下的工程挑战; • 开发芯片算子库适配方案,参与芯片选型、AI工具链优化及端云协同架构设计; • 探索多模态交互(视觉+语音+传感器)在智能终端的创新应用,如AI玩偶、陪伴机器人等。 3、跨团队协作与交付: • 与芯片厂商、算法团队、硬件团队协同开发,主导端侧SDK集成及性能调优,确保产品按时交付; • 支持产品量产落地,保障系统稳定性与用户体验。
1. 路径规划 ‒ 开发适用于多种场景(如机器人导航、自动驾驶、无人机等)的路径规划算法; ‒ 实现经典和前沿的全局及局部路径规划方法(如 A*、Dijkstra、RRT、DWA 等),优化路径规划的效率和鲁棒性; ‒ 处理动态环境中的路径生成和调整,解决复杂场景下的避障问题。 2. 行动决策 ‒ 研究并实现具身智能体的行动决策算法,设计任务分解和行为选择的逻辑; ‒ 基于行为树(Behavior Tree)、有限状态机(FSM)等方法,构建模块化的决策框架; ‒ 开发多智能体协作与竞争的行动决策模型,支持复杂交互任务的执行。 3. 强化学习(Reinforcement Learning,RL) ‒ 针对具身智能场景(如机械臂控制、机器人动态避障、导航等),设计强化学习的 reward 函数和训练策略; ‒ 实现主流深度强化学习算法(如 DQN、DDPG、PPO、SAC 等),解决高维连续控制与探索问题; ‒ 优化强化学习模型的收敛速度和鲁棒性,提升算法在实际场景中的表现。 4. 模仿学习(Imitation Learning,IL) ‒ 通过专家示范数据(如轨迹、动作序列)训练智能体,实现模仿人类/智能体行为; ‒ 应用行为克隆(Behavior Cloning, BC)、逆强化学习(Inverse Reinforcement Learning, IRL)等技术解决稀疏奖励问题; ‒ 结合模仿学习与强化学习,提升智能体在复杂任务中的学习和泛化能力。 5. 算法优化与工程实现 ‒ 优化算法的计算效率和资源占用,适配实时性要求 ;‒ 在仿真环境(如 Gazebo、PyBullet、Mujoco 等)和真实设备中验证算法性能; ‒ 配合嵌入式团队完成算法在终端设备上的部署与优化。 6. 技术研究与创新 ‒ 跟踪具身智能领域的前沿算法进展,探索新技术的实际应用; ‒ 研究多模态感知与决策(如视觉、语音、触觉)的融合方法,提升智能体的环境理解与行动能力; ‒ 参与长期自主学习、在线学习和自适应学习系统的设计与开发。
团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。