logo of bytedance

字节跳动机器学习平台研发工程师(训推框架方向)-Data

社招全职A147267地点:北京状态:招聘

任职要求


1、熟练掌握C++Python等编程语言,有GPU编程(CUDA)、AI编译器、分布式计算的经验;
2、对PyTorch推理加速有经验,如对FX、Dynamo、TensorRT、Triton等有深入了解;
3、对PyTorch/Tensorflow框架有了解,熟悉常用的…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责内部机器学习平台训练框架的研究与开发(包括数据预处理/训练/推理),服务于广告、推荐、搜索等场景;
2、负责实时高性能推理系统设计与开发,如算子融合、编译优化、模型量化、混合精度、异构硬件加速等;
3、负责性能优化与架构升级,持续提升数据预处理/训练/推理性能;
4、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
包括英文材料
C+++
Python+
CUDA+
PyTorch+
还有更多 •••
相关职位

logo of bytedance
社招A105196

负责机器学习引擎的设计与开发,包括: 1、负责内部机器学习平台训练框架的研究与开发(包括数据预处理/训练/推理),服务于广告、推荐、搜索等场景; 2、负责实时高性能预估系统设计与开发,如算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 3、负责性能优化与架构升级,持续提升数据预处理/训练/预估性能; 4、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2024-04-26上海
logo of baidu
社招ACG

-负责建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的混合云产品,支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力,提升团队技术影响力

更新于 2025-04-09北京
logo of kuaishou
社招D11903

1、与算法团队密切合作,构建大模型的训练、评测、管理、推理在内的训推一体化平台; 2、负责平台的性能优化和稳定性保障,监控系统运行状态,及时发现和解决潜在的问题; 3、平台化的支撑GPT、AIGC、多模态等新技术在商业化审核方向的落地; 4、组织攻克难点,数据AI领域的新技术引入、研究落地,形成本地化沉淀并对外输出技术影响力。

更新于 2025-05-07北京
logo of xiaohongshu
社招机器学习平台

【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责小红书大规模机器学习平台的后台系统设计和开发工作; 2、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升深度学习的训练效率,涉及k8s/kubeflow、网络通信、分布式训练等; 3、设计和构建 K8S 场景下的资源调度系统,参与底层GPU训练资源的调度优化与管理; 4、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。

北京|上海