logo of nio

蔚来AI编译器技术工程师

社招全职3-5年算法地点:杭州 | 上海状态:招聘

任职要求


岗位要求:
1. 熟悉C/C++python编程,有较好的编程习惯和编程基础;
2. 熟悉常用数据结构及算法,如堆/栈/队列/树/图等;
3. 熟悉计算机体系结构及常见硬件架构(如GPGPU、CPU、DSP、DSA等);

有如下经验优先考虑:
1. 熟…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


职位描述:
1. 负责AI处理器的图编译或者推理引擎方案设计、验证、开发和维护工作;
2. 负责AI编译栈的性能评估及优化工作,并探索软硬件协同优化方案;
3. 对智能辅助驾驶领域常用算法和工具进行调研和分析
4. 改进工具链各个组件和性能分析工具
包括英文材料
C+
C+++
Python+
编程规范+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术类-算法

1.我们正在寻找充满激情和经验丰富的大模型 AI 工程师/技术专家,加入我们行业领先的基础模型团队(Ling Team)。您将从基础设施的视角出发,深入参与大语言模型(LLM)的研发过程,与算法研究员紧密合作,共同负责并推动算法与工程的协同设计(Co-design)及优化。 在这个职位上,您将有机会解决大规模分布式训练和推理中的前沿挑战,通过极致的性能优化,将硬件潜力发挥到极限,为我们基础模型的迭代和业务落地提供坚实的算力基座和工程保障。 2.岗位职责: 你将从基础设施的视角,参与到新一代基座模型研发中,包括但不限于以下工作: -算法与工程协同设计: 参与scaling law 和 新模型架构的迭代设计,提供专家级工程实现方案,确保新模型架构的可实现性、高效性及可扩展性。 -训练与推理系统优化:基于特定模型架构,系统性分析并优化训练/推理框架性能,识别并解决大规模集群环境下的关键性能瓶颈。 -高性能并行与算子优化:研发高效精细的分布式并行策略(如张量、流水线、序列并行等),并针对核心算子进行定制化优化,充分释放硬件计算潜能。 -前沿技术探索与落地: 跟踪并引入业界最新的 AI 基础设施技术,包括但不限于编译优化、新型硬件架构等,并将其应用于实际的大模型研发中。

更新于 2026-02-02上海|杭州
logo of dji
社招8年以上嵌入式

1. 负责AI编译器技术路线制定,主导自研AI编译器整体架构设计; 2. 负责NN编译优化技术方案,包括图优化、算子融合、内存分配等核心模块设计; 3. 负责NN编译与硬件协同设计,参与NPU指令集和架构设计,芯片性能验证等; 4. 负责跟踪AI编译器领域技术演进,规划技术演进方向与推动落地。

更新于 2025-06-11深圳|上海
logo of kuaishou
校招J1020

1、负责异构计算芯片(GPU/NPU/ASIC等)的评估、选型与深度优化,构建面向业务场景的算力评估体系。 2、主导AI推理引擎在目标芯片上的设计与实现,实现毫秒级低延迟与高吞吐推理能力。 3、优化大规模模型训练框架的设计与实现,提升分布式训练效率,缩短模型迭代周期。 4、开发高性能算子库,突破芯片算力瓶颈,最大化硬件利用率。 5、推动异构编程范式革新,降低模型迁移成本,提升开发效率。

更新于 2025-07-30北京
logo of antgroup
社招3年以上技术-开发

1、全同态/AI编译器开发:设计并实现高效的编译器框架,支持全同态加密或AI模型的自动编译与优化。开发编译器前端、中间表示(IR)及后端,确保编译器能够高效处理复杂的数学运算和加密逻辑。优化编译器性能,提升生成代码的执行效率和资源利用率。 2、算子DSL设计与实现:设计并实现领域特定语言(DSL),用于描述全同态加密或AI算子的数学表达式和计算流程。确保DSL具备良好的可扩展性,支持多种硬件平台和算法需求。提供清晰的DSL接口文档和开发者工具链,降低用户使用门槛。 3、算子优化:针对全同态加密或AI算子进行深度优化,包括但不限于内存访问模式、并行化策略和硬件加速。分析现有算子的性能瓶颈,提出并实施优化方案,显著提升计算效率。探索新型算法和硬件架构(如GPU、TPU、FPGA等)在算子优化中的应用。 4、跨团队协作:与算法团队、硬件团队及产品团队紧密合作,确保编译器和算子优化方案满足实际业务需求。参与技术讨论和代码评审,推动团队技术水平的整体提升。 5、技术研究与创新:跟踪全同态加密和AI领域的最新研究成果,探索其在编译器优化中的潜在应用。发表相关技术论文或专利,提升公司在行业内的技术影响力。

更新于 2025-09-24北京|上海