京东语音算法开发专家
任职要求
1.硕士及以上学历,人工智能、计算机、电子信息、自动化等相关专业;
2.在语音交互大模型的一个或多个子方向上具备出色的算法研究能力;
3…工作职责
1.负责语音理解、生成、交互等基础大模型的算法跟踪、研究创新; 2.围绕语音交互大模型的配套算法,包括不限于语音音频信号处理、语音降噪增强、音乐歌唱、音效生成、语音唤醒、麦克风阵列等; 3.与文本、视觉大模型等兄弟团队紧密合作,研究原生多模态大模型。
1、嵌入式AI系统开发: • 负责RTOS系统平台上多模态AI终端产品的研发,包括方案评估、软件架构设计、核心功能模块(如人脸/手势识别、行为分析)开发与部署; • 主导端侧AI模型轻量化、跨平台推理框架适配(TensorFlow Lite/MNN/NCNN)及NPU芯片的性能优化(如内存、功耗、实时性); • 结合硬件特性设计轻量化模型架构,完成从算法训练到嵌入式端侧部署的全链路开发。 2、多模态算法工程化: • 优化计算机视觉算法在嵌入式设备(IoT/AR硬件/AI机器人)的落地效果,解决低算力、高延迟、多干扰场景下的工程挑战; • 开发芯片算子库适配方案,参与芯片选型、AI工具链优化及端云协同架构设计; • 探索多模态交互(视觉+语音+传感器)在智能终端的创新应用,如AI玩偶、陪伴机器人等。 3、跨团队协作与交付: • 与芯片厂商、算法团队、硬件团队协同开发,主导端侧SDK集成及性能调优,确保产品按时交付; • 支持产品量产落地,保障系统稳定性与用户体验。
1. 路径规划 ‒ 开发适用于多种场景(如机器人导航、自动驾驶、无人机等)的路径规划算法; ‒ 实现经典和前沿的全局及局部路径规划方法(如 A*、Dijkstra、RRT、DWA 等),优化路径规划的效率和鲁棒性; ‒ 处理动态环境中的路径生成和调整,解决复杂场景下的避障问题。 2. 行动决策 ‒ 研究并实现具身智能体的行动决策算法,设计任务分解和行为选择的逻辑; ‒ 基于行为树(Behavior Tree)、有限状态机(FSM)等方法,构建模块化的决策框架; ‒ 开发多智能体协作与竞争的行动决策模型,支持复杂交互任务的执行。 3. 强化学习(Reinforcement Learning,RL) ‒ 针对具身智能场景(如机械臂控制、机器人动态避障、导航等),设计强化学习的 reward 函数和训练策略; ‒ 实现主流深度强化学习算法(如 DQN、DDPG、PPO、SAC 等),解决高维连续控制与探索问题; ‒ 优化强化学习模型的收敛速度和鲁棒性,提升算法在实际场景中的表现。 4. 模仿学习(Imitation Learning,IL) ‒ 通过专家示范数据(如轨迹、动作序列)训练智能体,实现模仿人类/智能体行为; ‒ 应用行为克隆(Behavior Cloning, BC)、逆强化学习(Inverse Reinforcement Learning, IRL)等技术解决稀疏奖励问题; ‒ 结合模仿学习与强化学习,提升智能体在复杂任务中的学习和泛化能力。 5. 算法优化与工程实现 ‒ 优化算法的计算效率和资源占用,适配实时性要求 ;‒ 在仿真环境(如 Gazebo、PyBullet、Mujoco 等)和真实设备中验证算法性能; ‒ 配合嵌入式团队完成算法在终端设备上的部署与优化。 6. 技术研究与创新 ‒ 跟踪具身智能领域的前沿算法进展,探索新技术的实际应用; ‒ 研究多模态感知与决策(如视觉、语音、触觉)的融合方法,提升智能体的环境理解与行动能力; ‒ 参与长期自主学习、在线学习和自适应学习系统的设计与开发。
1. 探索大模型/多模态模型预训练、指令微调、模型评估等技术。 2. 探索提升文本大模型/多模态模型推理能力的前沿技术。 3. 结合阿里巴巴国际业务场景,与产品和运营团队协作,推动大语言模型/多模态模型在各类业务中的应用。
1. 需求分析与产品规划: -深入调研开发者、企业客户及行业需求,深入理解各种模型能力,定义大模型开发平台的核心功能(如工作流、Prompt工程、RAG增强、Agent框架等),并可以基于开发平台构建 AI 效果领先的垂直场景/行业解决方案; -制定所负责产品或模块的 Roadmap,平衡技术前瞻性与商业化落地节奏。 2. 产品全生命周期管理: -主导功能设计,输出PRD、原型及交互文档,推动算法、工程团队高效交付,协同运营、销售等团队应对和总结客户需求; -负责产品上线后的迭代优化,基于用户反馈和数据洞察持续提升产品体验。 3. 跨团队协作与生态建设: -协同运营团队,推动开发者生态建设,提升平台活跃度与开发者粘性。 4. 行业洞察与竞争分析: -跟踪国内外大模型平台产品动态,制定差异化竞争策略。