logo of thead

平头哥平头哥-AI 框架技术专家-上海/杭州

社招全职5年以上技术-芯片地点:上海 | 杭州状态:招聘

任职要求


1. 硕士以上,计算机科学相关专业, 至少3+年AI领域相关的开发经验。
2. 熟悉主流深度学习算法LLM大模型与AIGC模型算法的结构与工作原理
2. 熟悉主流深度学习框架PytorchTensorflow,分布式训练框架Megatron-LM、DeepSpeed ,推理框架FasterTransformer、TRT-LLM等;熟悉主流LLM(大语言)模型算法;具备适配算法与框架到AI芯片的工程化经验
3. 熟悉CUDA 并行编程技术
4. 具备分析与解决业务场景中AI软硬件全栈的功能、精度、性能问题, 能够跨团队、部门协作达成产品化目标

工作职责


1. 在AI 芯片上移植开源深度学习框架,分析解决移植过程中各类问题
2. 分析和验证各类深度学习算法在AI芯片上的功能、性能与精度,从算法与框架层分析并解决发现的功能、精度与性能问题,为芯片设计与AI软件栈提供参考实现
3. 对模型、框架、AI生态做竞品对比、原理分析,构建差异化竞争力,为AI芯片客户提供问题支持和解决方案
包括英文材料
深度学习+
算法+
大模型+
PyTorch+
TensorFlow+
Megatron+
DeepSpeed+
CUDA+
相关职位

logo of aliyun
社招5年以上技术类-开发

1、基于多模态大模型设计无影AI的技术架构,不断优化可扩展性,帮助无影业务不断快速增长。 2、支持服务上亿用户规模的高性能、分布式、可扩展的桌面和应用虚拟化产品线架构。 3、设计并实施全流式通信的 LLM 应用架构,实现端到端最佳的性能和资源效率,不断优化高并发高吞吐在线系统的健壮性。 4、结合多模态数据存储服务和RAG检索技术、多Agent协同、Function Call等,快速开发针对行业的热门应用。

更新于 2025-06-19
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14
logo of thead
社招5年以上技术-芯片

团队介绍 我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。 越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。 职位描述 1. 为芯片设计开发高性能、有竞争力的互联通信库; 2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化; 3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力; 4. 支持多卡或多机互联场景下各种用户问题分析与定位; 5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。

更新于 2025-09-09
logo of thead
社招5年以上技术-芯片

1. 设计开发高性能计算加速算法,包括但不限于MoE、Attention、卷积、矩阵乘及相关的融合和量化。 2. 基于硬件特性进行极致性能分析和优化,制定通用性能调优策略,适配和调优各种主流框架和开源代码。 3. 深度分析各种实际应用,如生成式AI/大语言模型推理和训练等场景,发明和改进能发挥硬件优势的加速算法。 4. 和其他团队紧密合作,参与并影响芯片架构、编程模型和软件平台的设计和路线演进。

更新于 2025-09-22