平头哥平头哥-AI 框架技术专家-上海/杭州
任职要求
1. 硕士以上,计算机科学相关专业, 至少5+年AI领域相关的开发经验。 2. 熟练掌握Python、C/C++编程语言,掌握AI Vibe Coding技术,良好的逻辑思维与问题分析能力 3. 熟悉SOTA大语言模型、多模态模型、VLA模型的架构与原理 4. 熟悉主流深度学习框架Pytorch、Tensor…
工作职责
1. 在AI 芯片上适配SOTA开源框架和SOTA模型,分析解决适配过程中发现的功能、性能与精度问题,为AI芯片客户提供问题支持和解决方案 2. 对SOTA模型和框架做原理分析,竞对分析、构建差异化产品竞争力,贡献开源社区提升产品影响力 3. 构建SOTA模型和框架端到端粒度、算子粒度、Kernel粒度的仿真框架,在芯片设计阶段提前发现精度、性能问题,保障芯片设计成功
1.我们正在寻找充满激情和经验丰富的大模型 AI 工程师/技术专家,加入我们行业领先的基础模型团队(Ling Team)。您将从基础设施的视角出发,深入参与大语言模型(LLM)的研发过程,与算法研究员紧密合作,共同负责并推动算法与工程的协同设计(Co-design)及优化。 在这个职位上,您将有机会解决大规模分布式训练和推理中的前沿挑战,通过极致的性能优化,将硬件潜力发挥到极限,为我们基础模型的迭代和业务落地提供坚实的算力基座和工程保障。 2.岗位职责: 你将从基础设施的视角,参与到新一代基座模型研发中,包括但不限于以下工作: -算法与工程协同设计: 参与scaling law 和 新模型架构的迭代设计,提供专家级工程实现方案,确保新模型架构的可实现性、高效性及可扩展性。 -训练与推理系统优化:基于特定模型架构,系统性分析并优化训练/推理框架性能,识别并解决大规模集群环境下的关键性能瓶颈。 -高性能并行与算子优化:研发高效精细的分布式并行策略(如张量、流水线、序列并行等),并针对核心算子进行定制化优化,充分释放硬件计算潜能。 -前沿技术探索与落地: 跟踪并引入业界最新的 AI 基础设施技术,包括但不限于编译优化、新型硬件架构等,并将其应用于实际的大模型研发中。
1. 负责灵骏集群的AI集群资源效能性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI集群资源效能进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
1、系统安全特性研发:主导或参与机密计算(Confidential Computing)、远程证明(Remote Attstation)、云原生机密容器、虚拟化安全等关键技术的研发与产品化落地; 2、构建端到端可信软件供应链:设计并实现支持 SLSA Provenance、SBOM、可重复 / 可验证构建的工具链与平台能力; 3、全栈安全方案设计:结合硬件、内核、用户态组件,打造纵深防御的安全架构; 4、推动前沿安全技术转化:跟踪系统安全、可信执行环境(TEE)、AI 安全等方向趋势,将研究成果转化为可规模化落地的工程方案; 5、参与开源与标准建设:积极参与并贡献系统安全相关开源社区,持续输出具有影响力的技术成果。