logo of momenta

Momenta训练平台infra专家

社招全职3年以上地点:北京 | 苏州 | 深圳状态:招聘

任职要求


1. 学历与经验:计算机科学或相关专业本科及以上学历,具备3年及以上Python后端开发经验
2. 编程能力:熟悉Python语言,熟悉异步IO、多进程/多线程编程;对数据结构算法有深入理解,具备良好的编码习惯。
3. 框架与组件:熟练掌握至少一种主流Python后端框架(如FastAPI, Django, Flask),并理解其运行原理;熟悉MySQL/PostgreSQL等关系型数据库,以及Redis/Kafka/RabbitMQ等常用中间件。
4. 基础知识:具备扎实的计算机基础,对操作…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 核心系统建设:负责公司级AI应用平台、算法评测平台等核心系统的架构设计、技术选型和开发工作。
2. 需求转化与实现:深入理解算法、数据等相关业务场景,与算法工程师、产品经理紧密合作,将业务需求转化为高质量的技术解决方案。
3. 架构演进:负责后端服务的性能优化、稳定性保障和架构演进,确保系统的高可用、高并发和可扩展性。
4. 技术探索:关注并研究业界前沿技术(如MLOps、Serverless、容器化等),并将其应用于实际工作中,驱动平台的技术创新。
包括英文材料
学历+
Python+
后端开发+
多线程+
数据结构+
算法+
编程规范+
FastAPI+
Django+
Flask+
还有更多 •••
相关职位

logo of alibaba
社招

我们是淘天集团阿里妈妈工程平台团队,致力于打造面向搜推广场景及GenAI与AI Agent应用的AI Infra平台。团队服务于淘天电商广告核心业务,承担 广告模型超大规模Embedding表征学习和Sparse-Dense模型及Dense大模型(LLMs/Diffusion等)训练与推理,AI Infra研发和优化等关键职责,在高性能在线服务&训练平台(推荐系统/多模态大模型/大语言模型)、分布式系统(计算/存储/网络)、异构计算和AI编译优化(GPGPU/CPU)等课题上都具有业界前沿的挑战。 1. 负责超大规模Sparse-Dense模型(for 广告)和Dense大模型(for GenAI应用)的训练架构设计优化并推动生产落地。 2. 负责大规模异构硬件Training系统的计算性能与效率优化。 3. Algorithm-Training-Inference Co-Design,整体提升模型效率。

更新于 2025-06-17北京
logo of alibaba
社招3年以上

我们是淘天集团阿里妈妈工程平台团队,致力于打造面向搜推广场景及GenAI与AI Agent应用的AI Infra平台。团队服务于淘天电商广告核心业务,承担 广告模型超大规模Embedding表征学习和Sparse-Dense模型及Dense大模型(LLMs/Diffusion等)训练与推理,AI Infra研发和优化等关键职责,在高性能在线服务&训练平台(推荐系统/多模态大模型/大语言模型)、分布式系统(计算/存储/网络)、异构计算和AI编译优化(GPGPU/CPU)等课题上都具有业界前沿的挑战。 1. 负责超大规模Sparse-Dense模型(for 广告)和Dense大模型(for GenAI应用)的训练架构设计优化并推动生产落地。 2. 负责大规模异构硬件Training系统的计算性能与效率优化。 3. Algorithm-Training-Inference Co-Design,整体提升模型效率。

更新于 2025-08-12北京
logo of alibaba
社招2年以上

1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。

更新于 2025-12-15杭州
logo of bytedance
社招A87992A

1、负责大模型应用开发平台的数据飞轮建设,为开发者提供一站式数据回流、加工、分析、训练、评估和部署的全流程平台能力; 2、负责构建支撑海量数据的底座能力,支撑全流程血缘、高效处理、深入洞察以及训练投递等能力,支撑全生命周期数据管理; 3、持续推动整体架构演进,结合行业支持探索数据飞轮在大模型场景下的最佳实践。

更新于 2025-06-19上海