logo of bytedance

字节跳动硬件加速模型编译优化工程师

社招全职A245845地点:上海状态:招聘

任职要求


1、深入理解深度学习框架和软件栈,熟悉C++Python等编程语言; 
2、有主动学习、快速解决问题的能力和自我驱动力。

以下为加分项: 
1、熟悉计算机体系结构和并行计算; 了解编译器和代码优化技术,熟悉MLIR、TVM、XLA等中间表示,有相关开发经验; 
2、对常…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责业务模型在自研AI编译器的端到端编译支持工作;
2、负责模型编译优化工作;
3、对接前端框架(Pytorch/Tensorflow)模型解析工作;
4、负责图层面算子融合的优化工作;
5、业务前沿模型及硬件适配性评估,软硬件协同优化工作;
6、负责模型量化编译工作。
包括英文材料
深度学习+
C+++
Python+
还有更多 •••
相关职位

logo of kuaishou
社招D7198

1.参与AI与GPU相关项目的性能优化与研发,通过利用并行计算优化、架构优化、量化优化和异构调度等高性能优化技术,研发行业领先的高性能异构AI优化技术与编译优化技术; 2.针对搜广推、音视频以及大模型场景,优化大模型训练和推理场景的性能; 3.与公司各算法部门深度合作,对重点项目进行算法与系统的联合优化。

更新于 2025-04-10北京
logo of bytedance
社招A10896

1、负责内部机器学习平台训练框架的研究与开发(包括数据预处理/训练/推理),服务于广告、推荐、搜索等场景; 2、负责实时高性能推理系统设计与开发,如算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 3、负责性能优化与架构升级,持续提升数据预处理/训练/推理性能; 4、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2024-11-11杭州
logo of antgroup
社招2年以上技术类-开发

蚂蚁DeepXPU团队专注在基于GPU等AI芯片的高性能异构计算系统研发,欢迎加入我们一起致力于: ● Software&Hardware Co-Design:深入分析GPU等AI芯片的硬件架构,打磨极致高效的算子与显存优化技术,优化大模型引擎,构建异构虚拟化能力。通过系统建设和优化,推动计算效率逼近硬件的性能极限,打造面向大模型的AI系统生态,提升智算集群的整体效率。 ● Algorithm&System Co-Design:从系统的视角出发,和算法团队紧密配合,共同探索大模型结构和范式的创新,并面向大规模AI应用场景进行系统级优化与落地。

更新于 2026-01-27北京|杭州
logo of antgroup
社招3年以上技术-开发

1、全同态/AI编译器开发:设计并实现高效的编译器框架,支持全同态加密或AI模型的自动编译与优化。开发编译器前端、中间表示(IR)及后端,确保编译器能够高效处理复杂的数学运算和加密逻辑。优化编译器性能,提升生成代码的执行效率和资源利用率。 2、算子DSL设计与实现:设计并实现领域特定语言(DSL),用于描述全同态加密或AI算子的数学表达式和计算流程。确保DSL具备良好的可扩展性,支持多种硬件平台和算法需求。提供清晰的DSL接口文档和开发者工具链,降低用户使用门槛。 3、算子优化:针对全同态加密或AI算子进行深度优化,包括但不限于内存访问模式、并行化策略和硬件加速。分析现有算子的性能瓶颈,提出并实施优化方案,显著提升计算效率。探索新型算法和硬件架构(如GPU、TPU、FPGA等)在算子优化中的应用。 4、跨团队协作:与算法团队、硬件团队及产品团队紧密合作,确保编译器和算子优化方案满足实际业务需求。参与技术讨论和代码评审,推动团队技术水平的整体提升。 5、技术研究与创新:跟踪全同态加密和AI领域的最新研究成果,探索其在编译器优化中的潜在应用。发表相关技术论文或专利,提升公司在行业内的技术影响力。

更新于 2025-09-24北京|上海