logo of tencent

腾讯机器学习平台研发工程师(深圳/北京)

社招全职3年以上大数据(数据计算平台部)技术地点:深圳状态:招聘

任职要求


1.掌握机器学习基本原理和工程链路,熟悉数据工程、模型训练、模型推理等流程,具有MLOps相关平台实际开发经验,有大规模搜/广/推工程平台研发经验者优先;
2.具备丰富的分布式系统开发经验,掌握负载均衡、容灾备份、数据库查询优化、缓存、消息队列等技术与系统;
3.熟练掌…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与机器学习MLOps平台建设,支持搜索、广告、内容推荐、金融等场景海量机器学习任务的调度与管理;
2.持续提升平台运行稳定性、安全性,改善平台易用性,提高机器学习研发效率;
3.优化平台GPU调度效率,提高资源利用率;
4.追踪前沿动态,优化技术架构,不断推进平台升级。
包括英文材料
PyTorch+
Megatron+
深度学习+
Java+
Go+
Python+
还有更多 •••
相关职位

logo of tencent
社招TEG技术

1.参与腾讯太极统一GPU调度平台开发,负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化; 2.优化异构AI芯片在多种任务作业之间的全局最优匹配,实现全局最佳利用率; 3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业,保障平台高性能高稳定运行。

更新于 2025-05-15深圳
logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

北京|上海|深圳
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

北京|上海|深圳
logo of xiaohongshu
社招3年以上机器学习平台

1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能

北京|上海|深圳