百度语音-语音语言大模型算法工程师-2026AIDU(J85297)
任职要求
-具备机器学习/深度学习/自然语言处理/语音处理/计算机视觉的理论背景和实践经验; -熟练掌握Python编程语言以及Pytorch、Tensorflow、PaddlePaddle等其中一项深度学习开发框架; -具有较好的团队沟通合作能力、分析问题和解决问题的能力; -有较强的工程实践经验,发表行业顶级论文者优先; 加分项: -获得过 ACM,NOI,NOIP 或其他商业代码竞赛的任意奖项; -有较强的钻研精神,对部分语言、系统、算法有深刻的探索和理解。
工作职责
-参与端到端语音语言大模型和文本可控语音合成大模型的研发工作; -研究跨模态数据表征方法、高质量数据萃取方法、高效算法算力融合的创新算法,探索跨模态端到端大模型的前瞻技术和趋势; -支持大模型平台化及规模化创新应用落地。
-研发突破性多模态大模型架构,探索视觉-语言-语音-3D跨; -优化大模型训练策略,攻克模态对齐、知识蒸馏、强化学习等技术难题; -推动前沿技术产品化落地,在百度网盘、百度文库、TeraBox、橙篇等产品场景实现价值闭环,改变十亿级用户产品体验; -持续跟踪ICLR/NeurIPS/CVPR等顶会最新进展,保持技术领先性; -深入挖掘产品潜在价值和需求,通过技术创新推动产品成长。
-负责多模态大模型中全模态数据(文本、图像、音频、视频等)的采集、处理、采样、配比等全流程数据管线的建设,以及相关的模型结构设计、效果优化,构建适合医疗健康领域的多模态大模型; -研究并实现跨模态信息融合的算法和技术,提升模型在健康内容/服务等场景中的理解和生成能力; -跟踪多模态深度学习的最新研究进展,探索和落地前沿技术(如预训练、自监督学习、小样本学习等); -与产品和工程团队紧密合作,推动多模态技术在搜索、推荐、AIGC等领域的全链路落地应用; -分析和解决在多模态数据处理过程中遇到的技术难题,持续提升模型的智能化水平和商业价值。
我们致力于构建全球领先的AI异构计算加速引擎和加速平台。建立融合推理(Inference)、训练(Training)的软硬件一体的AI计算加速解决方案,并应用于行业最大的规模的AI数据中心,解决云计算、搜索、信息流、图像、视觉、语音、自然语言处理等的算法优化与计算加速问题。 -负责大规模AI前向计算引擎(Inference Engine)框架和底层算子开发与优化; -负责大规模AI计算通信库及通信算法开发与优化; -负责面向CPU/GPU/FPGA/ASIC等多元化计算架构的编译系统开发、编译优化和算法加速; -负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 你的挑战: 攻克LLM全链路训练难题:主导大模型训练,优化模型Scaling Law,结合应用需求突破分布式性能瓶颈,基于RL增强模型推理能力,打造电商领域最懂用户需求的超级大脑(含多模态VLM研发)。 为什么选择淘天? 1.坐拥电商领域最大规模场景:每天处理数亿次用户交互,覆盖搜索/推荐/广告/客服/营销全链路,你将直接面对全球最复杂的电商需求场景。 2.定义未来购物标准:你研发的模型将服务数亿消费者,结合大语言和多模态模型能力满足用户偏好,影响海量商家经营决策。 3.顶级科研配置:超大规模GPU集群支持大规模参数模型训练,自研分布式框架实现训练推理效率大幅提升,顶级会议发表,前沿技术成果即时输血。 加入我们,你将获得: 1.与NLP/多模态领域顶尖团队共创,解锁大模型在商品理解、智能创作、消费决策、购物对话等场景的无限可能。 2.弹性化的技术路线选择权,既可在大模型基础技术方面突破能力上限,也可深入应用层打造现象级AI产品。 3.打通产学研用全链路:支持技术成果转化顶会论文和专利+百万级ai native用户产品。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。