平头哥平头哥-AI 框架技术专家-上海/杭州
任职要求
1. 硕士以上,计算机科学相关专业, 至少3+年AI领域相关的开发经验。 2. 熟悉主流深度学习算法、LLM大模型与AIGC模型算法的结构与工作原理 2. 熟悉主流深度学习框架Pytorch、Tensorflow,分布式训练框架Megatron-LM、DeepSpeed ,…
工作职责
1. 在AI 芯片上移植开源深度学习框架,分析解决移植过程中各类问题 2. 分析和验证各类深度学习算法在AI芯片上的功能、性能与精度,从算法与框架层分析并解决发现的功能、精度与性能问题,为芯片设计与AI软件栈提供参考实现 3. 对模型、框架、AI生态做竞品对比、原理分析,构建差异化竞争力,为AI芯片客户提供问题支持和解决方案
1. 负责灵骏集群的AI集群资源效能性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI集群资源效能进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
1、系统安全特性研发:主导或参与机密计算(Confidential Computing)、远程证明(Remote Attstation)、云原生机密容器、虚拟化安全等关键技术的研发与产品化落地; 2、构建端到端可信软件供应链:设计并实现支持 SLSA Provenance、SBOM、可重复 / 可验证构建的工具链与平台能力; 3、全栈安全方案设计:结合硬件、内核、用户态组件,打造纵深防御的安全架构; 4、推动前沿安全技术转化:跟踪系统安全、可信执行环境(TEE)、AI 安全等方向趋势,将研究成果转化为可规模化落地的工程方案; 5、参与开源与标准建设:积极参与并贡献系统安全相关开源社区,持续输出具有影响力的技术成果。
1、基于多模态大模型设计无影AI的技术架构,不断优化可扩展性,帮助无影业务不断快速增长。 2、支持服务上亿用户规模的高性能、分布式、可扩展的桌面和应用虚拟化产品线架构。 3、设计并实施全流式通信的 LLM 应用架构,实现端到端最佳的性能和资源效率,不断优化高并发高吞吐在线系统的健壮性。 4、结合多模态数据存储服务和RAG检索技术、多Agent协同、Function Call等,快速开发针对行业的热门应用。