logo of honor

荣耀算法系统优化专家(MLSys)云侧

社招全职5年以上研发类地点:南京 | 上海状态:招聘

任职要求


1、计算机、数学等专业优先;
2、5年及以上机器学习平台相关工作经验,熟练使用TensorFlowPyTorch等主流机器学习框架;
3、精通分布式系统,熟练使用KubernetesDocker等容器化技术;
4、具备扎实的编程能力,熟练使用Python、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、设计、开发和维护机器学习平台及相关工具,支持nlp,cv等模型的训练和推理;
2、负责训练&推理优化,包括但不限于GPU计算加速、网络通信优化,存储性能提升等;
3、联合算法团队,搭建及优化分布式机器学习训练及推理系统,能够根据数据特点从算法和工程角度进行优化和调整;
4、构建高可用的模型服务,保证服务的稳定性、高效性。让平台不断适应业务发展的需求和趋势;
5、参与开源社区的贡献,推动公司技术在业界的影响。
包括英文材料
机器学习+
TensorFlow+
PyTorch+
分布式系统+
Kubernetes+
Docker+
还有更多 •••
相关职位

logo of tongyi
校招通义2026届秋

我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。 具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递): 1. 大规模模型服务平台与智能调度系统设计: (1)负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化: (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化: (1)深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。

更新于 2025-08-07北京|杭州|上海
logo of antgroup
社招技术类-算法

1、研发面向云计算底座海量数据的大模型,包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发; 2、参与大模型应用研发全流程的工作,包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测;技术创新如专利、论文的撰写;外部技术影响力交流等; 3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地;

更新于 2025-07-14北京|杭州
logo of honor
社招研发类

1、负责深度学习框架的基础功能开发,实现各种计算操作,支持常见芯片平台; 2、使用各种高性能计算库提升深度学习框架计算速度; 3、高性能计算、并行计算、异构计算、性能优化; 4、紧跟业内最新技术,甄别技术成熟度。

更新于 2025-04-28南京|上海
logo of antgroup
社招3年以上技术类-算法

1.我们正在寻找充满激情和经验丰富的大模型 AI 工程师/技术专家,加入我们行业领先的基础模型团队(Ling Team)。您将从基础设施的视角出发,深入参与大语言模型(LLM)的研发过程,与算法研究员紧密合作,共同负责并推动算法与工程的协同设计(Co-design)及优化。 在这个职位上,您将有机会解决大规模分布式训练和推理中的前沿挑战,通过极致的性能优化,将硬件潜力发挥到极限,为我们基础模型的迭代和业务落地提供坚实的算力基座和工程保障。 2.岗位职责: 你将从基础设施的视角,参与到新一代基座模型研发中,包括但不限于以下工作: -算法与工程协同设计: 参与scaling law 和 新模型架构的迭代设计,提供专家级工程实现方案,确保新模型架构的可实现性、高效性及可扩展性。 -训练与推理系统优化:基于特定模型架构,系统性分析并优化训练/推理框架性能,识别并解决大规模集群环境下的关键性能瓶颈。 -高性能并行与算子优化:研发高效精细的分布式并行策略(如张量、流水线、序列并行等),并针对核心算子进行定制化优化,充分释放硬件计算潜能。 -前沿技术探索与落地: 跟踪并引入业界最新的 AI 基础设施技术,包括但不限于编译优化、新型硬件架构等,并将其应用于实际的大模型研发中。

更新于 2026-02-02上海|杭州