
哈啰【英才2026】AI超算平台研发工程师-造父·Robotaxi
任职要求
• 本科及以上学历,计算机、自动化、软件工程或相关专业。 • 熟悉至少一种编程语言:Python、Go、C++ 或 Java。 • 对 AI、分布式系统或云原生技术有兴趣,有相关课程或项目经验优先。 • 良好的学习能力和团队合作意识,具备解决问题的主动性。 加…
工作职责
岗位亮点: • 参与万卡超算集群、多云、多集群环境的 AI 平台研发,支持大规模模型训练与推理任务。 • 接触前沿技术:GPU/AI 加速、分布式训练、云原生调度、容器化、分布式存储。 • 学习机会丰富,可快速成长为训练/推理、调度或资产管理方向的核心研发工程师。 • 参与超算平台核心模块研发与优化,包括训练、推理、作业调度及 AI 资产管理。 • 学习并实践高性能计算、分布式系统和大规模数据处理技术。 • 支持平台稳定运行,协助性能调优和多集群资源管理。 • 与团队紧密协作,快速迭代产品和技术方案。

岗位亮点: • 参与万卡超算集群、多云、多集群环境下大规模 AI 模型训练与推理性能优化。 • 聚焦 PyTorch 框架性能优化,包括算子加速、DataLoader 异步加载、混合精度训练和端到端训练流水线调优。 • 快速成长为深度学习训练性能优化、分布式训练和高性能计算方向的核心人才。 • 优化 PyTorch 模型训练与推理性能,包括算子级优化、GPU/CPU 调度、内存和 I/O 管理。 • 分析训练/推理流程中的性能瓶颈,提出优化方案并实现,提升吞吐量和资源利用率。 • 支持多云、多集群环境下大规模训练任务,保证平台高性能和高可用性。 • 与训练平台研发团队和算法团队协作,优化端到端训练/推理流水线。

1. 基于 Java / Python 语言开发 Agent 核心功能,包括但不限于任务拆解、工具集成、状态管理等模块; 2. 调试并优化 Agent 与大模型的交互链路,提升响应速度与任务完成准确率; 3. 参与技术方案讨论,输出技术文档,推动研发流程规范化; 4. 主动调研行业内优秀的 Agent 框架(如 LangChain、AutoGPT 等)及大模型能力,提炼可复用的技术经验; 5. 协助解决开发过程中的技术问题,参与代码评审,保障代码质量。

负责AI平台、大模型平台及AI应用平台相关系统的设计与开发,聚焦智能Agent、RAG等前沿AI能力的工程化落地; 1. 涵盖机器学习系统模型训练、模型推理、资源管理、工作流、模型评估、数据处理、监控告警等功能模块开发; 2. 负责多种异构资源如GPU、CPU、RDMA等的最优化的编排调度,提升集群的整体资源利用率; 3. 解决开发过程中遇到的技术难题,确保项目按时交付; 4. 与算法团队密切合作,负责机器学习、深度学习算法模型的工程化、服务化以及产品化; 5. 负责平台的性能优化和稳定性保障,监控系统运行状态,及时发现和解决潜在的问题。 6. 大模型推理性能优化。