百度视觉技术部 视觉架构研发工程师(J83377)
任职要求
-本科以上计算机背景及相关学历,熟悉软件数据结构、算法设计; -精通Linux/C++编程工作环境,熟悉常用工程实现方案,熟悉Golang/Python(任意); -具…
工作职责
-从事视觉感知、视觉生成、数字人等相关研发工作,聚焦高性能计算,追求产品性能和灵活性。 - 国产硬件适配 -分布式向量检索 -视频和视频流感知与生成 -平台化任务调度等。
1、设计和实现机器学习平台系统, 包括dataloader/工具链/组件等AI基础设施, 落地业务功能需求; 2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务的训练任务; 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 1. 为满足AGI时代"活人感"语音交互的需求,致力于完成包括但不限于以下目标:复杂声学+时空信息的声学理解、通过图灵测试水平的交互节奏 / 交流内容 / 语音输出,并完成所需的技术创新; 2. 多模态对话大模型的研发、语音对话pipeline方案以及端到端方案的交互能力搭建、全双工交互能力搭建,落地到高德多项agent应用场景; 3. 跟进最领先的语音理解/语音生成/语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 4. 探索前沿方向,如更加高效且合理的模型架构、跨模态(文字/语音/视觉)混合训练的最佳实践、基于speech language model的后训练技术、COT Reasoning in streaming full-duplex、proactive interaction,等等。结合全链路各个agent,持续提升voice agent的交互体验; 5. 海量的语音数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量。
我们致力于构建全球领先的AI异构计算加速引擎和加速平台。建立融合推理(Inference)、训练(Training)的软硬件一体的AI计算加速解决方案,并应用于行业最大的规模的AI数据中心,解决云计算、搜索、信息流、图像、视觉、语音、自然语言处理等的算法优化与计算加速问题。 1. 负责大规模AI前向计算引擎(Inference Engine)框架和底层算子开发与优化; 2. 负责大规模AI计算通信库及通信算法开发与优化; 3. 负责面向CPU/GPU/FPGA/ASIC等多元化计算架构的编译系统开发、编译优化和算法加速; 4. 负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化。
1.定义并开发机器人关键技术,如关节设计、灵巧机械手、电驱动和传动系统、控制系统、机器视觉、边缘计算等; 2.能够结合生产式人工智能技术探索可商业化的机器人系统并能够开发原理样机验证可行性; 3.负责研发、选择机器人系统 如SCARA、Articulated Roboic Arm、RGV、AMR,、Delta 等; 4.熟悉ROS Moveit, Gazebo、Fanuc RoboGuide等开源和商业化创建模拟和离线编程工具及机器人开发环境; 5.营造我们团队成员的自驱成长思维,推动具有责任感和极端主人翁精神的高绩效团队文化; 6.直接参与概念、设计、架构和研发路线的制定和审查。