特斯拉高级软件开发工程师,AI平台
社招全职2年以上IT-应用软件地点:上海状态:招聘
任职要求
• 教育背景:计算机科学、人工智能、软件工程或相关专业本科及以上学历。 • 工作经验: 1) 至少 2年开发经验,具备MLOps、AI基础设施或大规模模型推理服务经验优先。 2) 有在生产环境中成功部署和运维大语言模型(LLM)或深度学习模型的实际项目经验优先。 • 技术能力: 1) 精通 Python或者Go,熟悉至少一种后端开发框架,如Flask,FastAPI。 2) 熟悉并有前端 React/Nexjs 开发经验的优先。 3) 深入掌握 Kubernetes 和 Docker 技术,具备通过 KubeFlow、NVIDIA GPU Operator 或自定义控制器管理GPU加速工作负载的实践经验…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
后端开发+
https://www.youtube.com/watch?v=tN6oJu2DqCM&list=PLWKjhJtqVAbn21gs5UnLhCQ82f923WCgM
Learn what technologies you should learn first to become a back end web developer.
Flask+
https://www.youtube.com/watch?v=Z1RJmh_OqeA
Flask is a micro web framework written in Python.
FastAPI+
https://fastapi.tiangolo.com/tutorial/
This tutorial shows you how to use FastAPI with most of its features, step by step.
https://realpython.com/get-started-with-fastapi/
FastAPI is a web framework for building APIs with Python.
https://www.youtube.com/watch?v=rvFsGRvj9jo
This video today is a crash course, where we will go through the basics of FastAPI.
React+
[英文] Quick Start - React
https://react.dev/learn
This page will give you an introduction to 80% of the React concepts that you will use on a daily basis.
https://www.youtube.com/watch?v=SqcY0GlETPk
Master React 18 with TypeScript! ⚛️ Build amazing front-end apps with this beginner-friendly tutorial.
https://www.youtube.com/watch?v=x4rFhThSX04
Learn modern React basics in the most interactive, hands-on way possible in the full course for beginners.
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
还有更多 •••
相关职位
社招3年以上
1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理; 2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率; 3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化; 4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。
更新于 2025-07-22广州
社招网易伏羲
1. 参与网易伏羲游戏AI产品的质量保障,包括AIGC、自然语言、用户画像、强化学习等算法测试和性能测试; 2.对产品需求进行分析、评审,提前规避有问题需求,设计测试点、测试用例;积极发现和推动解决项目中的进度、流程、质量风险,并能对项目提出合理建议; 3. 挖掘研发和测试过程中的痛点,通过开发测试平台、工具的等方式来提升研发的质量和效率; 4. 对前沿测试技术有较高的敏感度,思考AI在测试领域的应用,能够引入并应用到工作中。
更新于 2025-04-03杭州
社招2年以上
1、负责淘天供应链的销量计划及效能平台的系统设计和产品功能开发,这里你可以了解淘天自营供应链是怎样高效运作的。 2、参与 AI相关基础平台的开发(Agent、MCP 市场、算法平台),负责关键特性的设计及交付,构建 AI 时代的技术底座。 3、参与 供应链数字分身、数据Agent 等 AI 场景的产品能力建设,基于AI供应链数字分身重塑协同效率。
更新于 2025-11-27杭州