特斯拉高级软件开发工程师,AI平台
社招全职2年以上运维开发地点:上海状态:招聘
任职要求
• 教育背景:计算机科学、人工智能、软件工程或相关专业本科及以上学历。 • 工作经验: 1) 至少 2年开发经验,具备MLOps、AI基础设施或大规模模型推理服务经验优先。 2) 有在生产环境中成功部署和运维大语言模型(LLM)或深度学习模型的实际项目经验优先。 • 技术能力: 1) 精通 Python或者Go,熟悉至少一种后端开发框架,如Flask,FastAPI。 2) 熟悉并有前端 React/Nexjs 开发经验的优先。 3) 深入掌握 Kubernetes 和 Docker 技术,具备通过 KubeFlow、NVIDIA GPU Operator 或自定义控制器管理GPU加速工作负载的实践经验…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
后端开发+
https://www.youtube.com/watch?v=tN6oJu2DqCM&list=PLWKjhJtqVAbn21gs5UnLhCQ82f923WCgM
Learn what technologies you should learn first to become a back end web developer.
Flask+
https://www.youtube.com/watch?v=Z1RJmh_OqeA
Flask is a micro web framework written in Python.
FastAPI+
https://fastapi.tiangolo.com/tutorial/
This tutorial shows you how to use FastAPI with most of its features, step by step.
https://realpython.com/get-started-with-fastapi/
FastAPI is a web framework for building APIs with Python.
https://www.youtube.com/watch?v=rvFsGRvj9jo
This video today is a crash course, where we will go through the basics of FastAPI.
React+
[英文] Quick Start - React
https://react.dev/learn
This page will give you an introduction to 80% of the React concepts that you will use on a daily basis.
https://www.youtube.com/watch?v=SqcY0GlETPk
Master React 18 with TypeScript! ⚛️ Build amazing front-end apps with this beginner-friendly tutorial.
https://www.youtube.com/watch?v=x4rFhThSX04
Learn modern React basics in the most interactive, hands-on way possible in the full course for beginners.
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
还有更多 •••
相关职位
社招核心本地商业-业
1.负责MDP、XFrame等公司级开发框架在AI时代的技术演进; 2.探索AI Agent在架构治理、技术升级等研发工作上的落地; 3.参与系统的高可用建设,做好系统日常运维,确保系统稳定; 4.发现并解决当前系统中存在的问题,持续提升系统效率和质量; 5.指导新人,积极输出实践经验,促进共同进步。
更新于 2025-04-03北京|上海
社招网易伏羲
1. 参与网易伏羲游戏AI产品的质量保障,包括AIGC、自然语言、用户画像、强化学习等算法测试和性能测试; 2.对产品需求进行分析、评审,提前规避有问题需求,设计测试点、测试用例;积极发现和推动解决项目中的进度、流程、质量风险,并能对项目提出合理建议; 3. 挖掘研发和测试过程中的痛点,通过开发测试平台、工具的等方式来提升研发的质量和效率; 4. 对前沿测试技术有较高的敏感度,思考AI在测试领域的应用,能够引入并应用到工作中。
更新于 2025-04-03杭州
社招3年以上软硬件服务-Sa
1. 深刻理解负责业务的产品架构、客户场景及技术架构,结合业务线特点制定和推进有效的测试策略和测试方法。 2. 理解敏捷项目模型,能够深度参与到诸如用户故事拆分等各种敏捷产研活动。 3. 能够结合需求、研发设计、CodeReview开展测试分析,充分把控测试范围,并指导和带领比自己职级低的同学完成用例设计及用例执行工作,保证高质量的交付。 4. 负责客户端、后台等方向性能、自动化、兼容性等专项测试的建设。 5. 通过在软件开发流程、测试策略、测试方法和测试技术等方面的创新,提升产品质量和工程效率。 6. 解决测试开发工作中的复杂技术问题。
更新于 2025-04-17成都