腾讯腾讯游戏-资深机器学习工程师/专家-大规模模型训练与推理优化
任职要求
1.熟悉 GPU 架构 & CUDA 编程、算子融合优化等; 2.熟悉 PyTorch FSDP、DeepSpeed、Megatron-LM 等分布式训练框架,具备大模型多种并行训练策略实战经验; 3.熟悉 vLLM、SGLang 等大模型推理框架,有实际性能调优经验(如 KV Cache 优化、动态…
工作职责
1.负责3D/动画等美术资产生成大模型分布式训练和推理系统的性能优化; 2.通过数据并行、模型并行、流水线并行、专家并行等策略的工程实现和性能优化; 3.解决大模型训练中的显存瓶颈、通信延迟和负载均衡等核心计算资源问题; 4.负责多模态RLHF训练与推理平台的实现。
1、结合营销业务场景(如优惠券、补贴、活动奖励、游戏等),设计并实现针对虚假交易、批量注册、套现、团伙等异常行为的实时风控算法。 2、利用机器学习、深度学习及相关数据分析技术,对用户行为和交易数据进行实时监控与分析,识别可疑行为和潜在风险; 3、与业务、产品和风控团队紧密合作,定义并完善风控指标体系,持续跟进风险案例并制定对应策略; 4、设计并实现高效、稳定的风控数据处理流程,包括数据清洗、特征工程、模型训练及线上预测部署; 5、持续跟踪电商行业风险趋势及新技术发展,及时更新和升级风控算法与策略,提升整体防控能力。
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的Devops平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 2. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 3. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。
1,算法开发与优化: 负责自动驾驶模型算法的研发设计,包括但不限于行为决策、轨迹生成、运动规划等模块的深度学习/强化学习模型设计 探索基于Transformer、模仿学习(Imitation Learning)、强化学习(RL)等前沿技术的模型算法设计、应用方案 优化自动驾驶算法的实时性、安全性和舒适性,解决复杂场景(如拥堵、交互博弈、长尾问题)下的规划挑战 2,数据驱动迭代: 构建和利用大规模驾驶数据集(仿真+真实数据),设计数据闭环 pipeline 提升规划性能 参与数据标注、场景挖掘、仿真测试等环节,推动算法迭代 3,系统集成与部署: 与感知、控制等模块团队协作,实现模型算法在车载计算平台的部署 支持实车测试,分析问题并提出改进方案。 4,前沿技术跟踪: 跟进学术界(如CVPR、ICRA、CoRL)和工业界最新进展,将创新技术落地到量产或研发项目中