拼多多机器学习架构工程师/专家(训练和推理方向)
任职要求
1、熟悉Linux开发环境,精通C++/Python,具备扎实编程基础,具备高性能系统开发经验; 2、具备主流深度学习TensorFlow、PyTorch、ONNX Runtime、vLLM等任一框架的使用、开发经验 3、熟…
工作职责
1、负责设计与开发分布式模型训练系统,支持千亿参数的PS架构和万亿参数的Transformer架构,优化算力异构集群; 2、设计开发高性能模型推理服务,优化低延迟、高并发、高稳定性的推理系统,满足搜广推场景毫秒级响应需求; 3、优化训练和推理中的性能瓶颈,通过升级架构、算子优化、访存优化、量化技术等压榨硬件算力; 4、优化大模型的训练和推理速度,调研开发DeepSeek、Megatron、DeepSpeed、vLLM等模型和框架的落地; 5、与算法团队紧密合作,针对业务需求(CTR/CVR、大语言模型、强化学习等),推动新技术在场景中的应用。
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、熟悉大模型算法工程化,与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享
-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、金融、 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -在自研芯片上适配常见大模型,结合深度学习训推框架特性,开发或调优相关算子,提升模型在芯片上的性能和精度表现,辅助客户进行芯片选型和应用 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力