
Momenta云平台开发高级工程师/专家
任职要求
岗位需求 计算机科学或相关领域的本科以上学历; 有Nvidia Triton或其他推理工具(如TensorRT, TFServing等)的实践经验; 熟悉常见的深度学习框架(如TensorFlow, PyTorch等)和模型转换格式(如ONNX); 具备Docker容器化技术的实际应用经验,了解Kubernetes等容器编排工具者优先; 良好的性能调优能力,熟悉Linux操作系统和网络配置; 具备良好的问题分析和解决能力,能够独立处理和推动项目进程; 强烈的学习意愿,适应快速变化的技术要求; 良好的团队合作精神和沟通技巧。
工作职责
岗位职责: 负责使用momenta自动标注和仿真中模型的部署和调优工作; 对现有系统进行性能评估,并针对性能瓶颈提出解决方案以优化系统性能; 与数据科学家合作,确保模型与Triton推理服务器的兼容性并实现最佳性能;
Steam 部门设立于2025年1月,正如蒸汽机(Steam Engine)在工业革命 1.0 中所象征的创新开端,我们也希望以此之名,积极探索云与 AI 结合的产品方向。 在当前大模型能力日新月异的情况下,唯有坚持自己的核心价值主张和对未来的判断,且面向半年至一年后的大模型能力打造应用产品,才有一战的可能。对于大模型领域的未来进展,我们相信: 1) 大模型的智商会快速接近乃至与人类齐平; 2) 大模型的多模态理解能力,特别是视觉能力将得到长足发展; 3) 在1和2前提下,信息处理类工作将最终被 AI 接管,大量替代真人员工。 对于阿里云如何做到云+ AI,我们认为"云的最大客户会是 AI",我们的行动路径是让更多现实世界的工作量从“人类脑力劳动”转移到“云端 AI 消耗的计算资源”。 在这些认知下,我们确定了“高效完成重复任务,完整替代人类工作”的产品目标,如果你也相信这个未来,欢迎上船。 1、AI产品质量保障体系构建:主导AI产品(含Agent、模型服务等)的全生命周期质量保障,制定测试策略、设计测试方案与质量标准,推动研发流程优化; 2、效能提升与自动化:通过持续集成(CI/CD)、自动化测试平台及线上质量监控体系,提升团队测试效率与问题拦截能力; 3、复杂项目质量管控:主导中大型AI项目的质量保障,包括测试策略制定、流程优化、风险预警及质量复盘,确保关键节点交付质量; 4、技术驱动与协作:推动测试技术创新(如AI场景专项测试、自动化工具链),协同研发团队提升代码质量与交付效率。
作为云原生CI/CD方向高级工程师/专家,您将深度参与公司级CI/CD平台的设计、构建、优化和推广。您需要运用您在CI/CD领域的多年经验和对云原生技术的深刻理解,结合平台工程的理念,打造自动化、智能化、自助化的研发交付流水线和开发者平台,赋能业务快速迭代和创新。 主要职责: 1. CI/CD平台建设与优化: - 负责设计、开发、部署和维护公司级CI/CD平台及相关工具链(如Jenkins, GitLab CI, Argo CD, Tekton, Spinnaker等)。 - 持续优化CI/CD流程,提升构建、测试、部署的自动化水平、速度和稳定性。 - 集成代码质量扫描、安全扫描、自动化测试等工具,确保交付质量。 2. 云原生技术实践与推广: - 将云原生理念(如微服务、容器化、不可变基础设施、声明式API)融入CI/CD流程和平台设计。 - 深入研究和应用Kubernetes、Docker、Service Mesh、Serverless等云原生技术,提升资源利用率和系统弹性。 - 推动云原生最佳实践在研发团队中的落地。 3. 平台工程理念落地: - 基于平台工程理念,设计和构建内部开发者平台(IDP),提供标准化的开发、测试、部署环境和工具。 - 为开发者提供自助服务能力,降低认知负荷,提升开发者体验(Developer Experience)。 - 抽象通用能力,构建可复用的组件和模板,赋能不同业务线的快速接入和使用。 4. 技术攻坚与创新: - 解决CI/CD及云原生平台在实施和运维过程中遇到的复杂技术难题。 - 跟踪业界CI/CD、DevOps及云原生领域的最新技术和发展趋势,引入创新方案,持续提升平台能力。 - 参与制定CI/CD和云原生相关的技术规范、标准和SOP。 5. 知识沉淀与分享: - 撰写技术文档,沉淀最佳实践,进行内部技术培训和分享,提升团队整体技术水平。 - 指导和帮助团队其他成员解决技术问题。
职位简介:负责南北向接入架构演进,包括七层负载均衡 和 GSLB全球负载均衡的开发以及相应的运维工作 岗位职责 建设高性能、高可用接入层,支持峰值数千万 QPS 的业务场景; 建设业内领先的混合云接入架构,从0-1支持QUIC/HTTP3接入; 负责南北流量的容灾架构,通过合理的容灾手段提升接入稳定性; 负责流量平台、内外网调度,高可用系统的设计和迭代,支持跨云、跨地域单元化流量调度; 负责团队内部核心产品的日常运维、调优、排障和接入平台的持续优化;