百度语音-语音语言大模型算法工程师-2026AIDU(J85297)
任职要求
-具备机器学习/深度学习/自然语言处理/语音处理/计算机视觉的理论背景和实践经验; -熟练掌握Python编程语言以及Pytorch、Tensorflow、PaddlePaddle等其中一项深度学习开发框架; -具有较好的团队沟…
工作职责
-参与端到端语音语言大模型和文本可控语音合成大模型的研发工作; -研究跨模态数据表征方法、高质量数据萃取方法、高效算法算力融合的创新算法,探索跨模态端到端大模型的前瞻技术和趋势; -支持大模型平台化及规模化创新应用落地。
-负责多模态大模型中全模态数据(文本、图像、音频、视频等)的采集、处理、采样、配比等全流程数据管线的建设,以及相关的模型结构设计、效果优化,构建适合医疗健康领域的多模态大模型; -研究并实现跨模态信息融合的算法和技术,提升模型在健康内容/服务等场景中的理解和生成能力; -跟踪多模态深度学习的最新研究进展,探索和落地前沿技术(如预训练、自监督学习、小样本学习等); -与产品和工程团队紧密合作,推动多模态技术在搜索、推荐、AIGC等领域的全链路落地应用; -分析和解决在多模态数据处理过程中遇到的技术难题,持续提升模型的智能化水平和商业价值。
-研发突破性多模态大模型架构,探索视觉-语言-语音-3D跨; -优化大模型训练策略,攻克模态对齐、知识蒸馏、强化学习等技术难题; -推动前沿技术产品化落地,在百度网盘、百度文库、TeraBox、橙篇等产品场景实现价值闭环,改变十亿级用户产品体验; -持续跟踪ICLR/NeurIPS/CVPR等顶会最新进展,保持技术领先性; -深入挖掘产品潜在价值和需求,通过技术创新推动产品成长。
我们致力于构建全球领先的AI异构计算加速引擎和加速平台。建立融合推理(Inference)、训练(Training)的软硬件一体的AI计算加速解决方案,并应用于行业最大的规模的AI数据中心,解决云计算、搜索、信息流、图像、视觉、语音、自然语言处理等的算法优化与计算加速问题。 -负责大规模AI前向计算引擎(Inference Engine)框架和底层算子开发与优化; -负责大规模AI计算通信库及通信算法开发与优化; -负责面向CPU/GPU/FPGA/ASIC等多元化计算架构的编译系统开发、编译优化和算法加速; -负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化。