logo of nio

蔚来AI runtime工程师

社招全职3-5年算法地点:上海状态:招聘

任职要求


1,计算机、通信或者电子相关专业,本科及以上学历,有AI芯片系统软件开发或验证经验者优先;
2,熟悉NPU/GPGPU体系结构,深入理解ROCm/Cuda Runtime项目;
满足以下条件优先:…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责开发深度学习AI模型的runtime软件,完成计算资源调度、内存管理、host-device并行优化工作。
1,分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量交付AI系统的运行时软件;
2,与编译器、驱动工程师协同提供定制优化项和编程api;
3,参与故障检测和恢复机制设计,保证AI系统的可靠性;
4,参与Profiling工具设计,保证AI系统的性能可视化和瓶颈定位;
5,持续改进通信和调度机制, 与业务团队协作完成多模型部署,提高芯片的综合计算效率和系统吞吐量;
包括英文材料
学历+
CUDA+
还有更多 •••
相关职位

logo of antgroup
社招5年以上技术-基础平台

1、基于自研AI芯片开发Runtimee/UMD软件栈; 2、负责异构调度开发; 3、参与硬件整个设计流程,迭代驱动设计以满足model/emulation/hardware的需求; 4、分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量软件交付; 5、跟踪行业趋势和实践,持续改进driver的设计和实现;

更新于 2025-10-24上海
logo of ke
社招3年以上经纪业务研发部

1、负责移动iOS端开发,高质量完成业务需求,并不断优化代码 2、书写代码规范,保证代码质量,关注APP稳定性和性能 3、承担部分项目框架的搭建,任务拆解,技术选型,技术攻坚 4、负责移动端新技术方向的研究,不断改进工具链,提高研发效率和质量

更新于 2025-02-25北京
logo of amap
社招3年以上技术类-开发

1、主导AI模型推理引擎的架构设计与核心模块开发,优化LLM、CV等模型的低延迟、高吞吐推理性能; 2、深入硬件层(GPU/TPU/端侧芯片)进行算子和计算图优化,实现模型编译、量化压缩、动态批处理等关键技术; 3、探索大模型推理前沿技术(如 speculative decoding、continuous batching、vLLM优化等); 4、建立推理服务的监控、诊断与调优体系,实现端到端性能瓶颈分析。

更新于 2025-04-09北京
logo of bytedance
社招2年以上A13229

1、参与AI芯片多卡互联方案的设计与开发,根据公司产品需求,制定高效、稳定的多卡互联架构; 2、参与开发和优化多卡互联的软件驱动程序,实现多卡之间的协同工作,提高系统的整体性能和稳定性; 3、参与多卡互联系统的验证与调试,及时发现并解决在测试过程中出现的各种问题; 4、参与AI芯片Profiling方案设计,负责Profiling模块的验证以及相关驱动和工具的开发; 5、参与AI芯片任务调度器驱动方案设计和开发,负责任务调度Firmware的开发; 6、跟踪行业最新技术动态,为公司的AI芯片多卡互联技术发展提供前瞻性的建议和技术储备。

更新于 2025-01-21杭州