特斯拉全栈开发工程师,AI,上海
任职要求
教育背景 计算机科学、人工智能、软件工程或相关专业本科及以上学历。 工作经验 至少 2 年软件开发经验,具备 MLOps、AI 基础设施或大规模模型推理服务 相关经验者优先。 有在生产环境中成功部署和运维 大语言模型(LLM)或深度学习模型 的实际项目经验者优先。 技术能力 精通 Python 或 Go,熟悉至少一种后端开发框架,如 Flask、FastAPI。 有 React / Next.js 前端开发经验者优先。 深入掌握 Kubernetes 和 Docker,具备通过 KubeFlow、NVIDIA GPU Operator 或自定义控制器管理 GPU 加速工作负载的实践经验…
工作职责
职位角色 特斯拉信息技术部门(工作地点:上海超级工厂)现招聘一名全职 IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps 与 MLOps 平台。随着人工智能技术,尤其是生成式AI(GenAI)平台在企业核心系统中的深入应用,我们亟需一位能够打通 AI研发与生产部署之间壁垒 的工程专家。 您将负责从 模型训练、版本管理、自动化部署到高性能推理服务 的完整 MLOps 体系建设,并主导构建支持 本地 GPU 推理与云端 LLM API 融合 的混合式推理网关平台,以实现 低延迟、高吞吐 的企业级 AI 服务能力。作为 GenAI 平台及未来 AI 服务落地的核心力量,您将显著提升 AI 功能的交付效率与系统稳定性。 设计、构建并维护可扩展的 MLOps 平台,实现 AI 模型从训练、版本控制、部署到监控的全生命周期管理。 基于 vLLM、TensorRT-LLM、TGI 等框架,在大规模 GPU 集群上开发并优化大语言模型(LLM)推理流水线。 构建融合本地 GPU 模型与云上 LLM API 的混合推理网关平台,实现智能路由、负载均衡与性能成本优化。 搭建自动化 LLM 微调(Fine-Tuning)流水线,支持 LoRA、QLoRA 等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障 AI 系统的可观测性与稳定性。 与 AI 科学家和应用工程师协作,进行模型优化(如量化、剪枝、蒸馏),提升推理效率与资源利用率。 支持 GenAI CN 平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 制定 AI 模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 使用 GitLab CI、Jenkins、ArgoCD 等工具实现 AI 工作流的 CI/CD 自动化,确保可复现性与可审计性。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
1. 基于 NVIDIA Isaac 的仿真平台开发 ‒ 搭建和维护基于 NVIDIA Isaac Sim 的机器人仿真系统,支持多种机器人类型(例如移动机器人、机械臂、无人车等)。 ‒ 利用 NVIDIA Omniverse 技术,构建高保真的虚拟环境,模拟物理特性(如动力学、传感器特性、碰撞检测等)。 ‒ 开发和优化 Isaac Sim 中的自定义扩展模块,满足项目需求。 2. 环境建模与场景构建 ‒ 使用 NVIDIA Omniverse 和其他建模工具(如 Blender、Maya)创建逼真的仿真环境和场景。 ‒ 配置和调试虚拟传感器(如激光雷达、摄像头、IMU)以模拟真实硬件行为。 ‒ 构建动态交互场景,用于测试机器人在复杂环境中的性能。 3. 机器人控制与算法验证 ‒ 在仿真环境中集成和测试机器人算法(如SLAM、路径规划、运动控制)。 ‒ 验证和优化机器人感知算法(如视觉检测、环境感知)在高保真模拟环境中的效果。 ‒ 通过仿真结果分析算法性能,为实际机器人实施提供支持。 4. 系统集成与工具链开发 ‒ 与机器人硬件和软件团队合作,将仿真结果与实际机器人验证无缝对接。 ‒ 开发自动化测试工具和数据可视化分析工具,提高开发效率和数据洞察能力。 ‒ 集成 Isaac 与其他机器人框架(如 ROS/ROS 2)以支持全栈开发。 5. 研究与创新 ‒ 研究 NVIDIA Isaac 平台的最新功能和应用场景,将新技术引入仿真系统开发。 ‒ 跟踪机器人仿真领域的前沿技术(如物理引擎优化、AI 模型仿真、数字孪生技术),并应用于项目中。
1、金融行业AI与云业务的市场拓展、商机拓展与目标达成: •主动洞察所在区域/市场,识别出关键/潜在客户,并主动找到关键决策链,识别客户真实需求,构建立体的客户沟通界面。 •协同SA、产研和生态伙伴等资源,挖掘金融机构AI转型需求(如AI算力、智能体开发、大模型部署等),形成有效商机,明确销售及解决方案策略,设计合作路径并沟通执行。 •结合对客户业务需求的理解,提供能满足客户需求的云及AI全栈方案,规划业务策略和实现路径,解答客户对产品、解决方案的常规问题。 •开拓维护金融机构中高层合作关系,通过沟通和影响力、商务报价等一系列销售策略的运用,主导关键项目谈判,推动技术方案与客户需求的精准匹配,推进所负责客户的AI全栈和云平台建设落地转化,达成业绩。 2、AI全栈产品和技术价值传递: •深入理解AI全栈产品,深刻洞察客户业务需求,基于行业和客户需求洞察,帮助客户理解AI/智算、七大件、飞天操作系统等阿里云产品的技术价值,以及相对竞企的差异化竞争优势,传递阿里云作为客户最佳合作伙伴的定位。 •针对客户对AI算力、大模型应用场景落地等需求,通过标杆案例及场景化演示,向客户高层展示阿里云AI全栈产品的竞争优势,确保技术方案与客户业务目标深度绑定。 3、商务运作和业务支持: •完成客户招投标及商务合同签署等商务工作,动态跟踪客户需求变化,推动合同变更。 •支撑复杂项目运作,参与招投标流程管理、项目管理、风险管理,协同产研、交付和生态伙伴等资源,及时发现并解决项目交付问题,支撑客户业务目标达成。 •将客户使用中遇到的影响客户体验的问题,反向推动内部解决,推动内部产品解决方案和流程体系的改进。 •积极发掘并推进与云、AI领域生态伙伴的合作,构建可持续的行业合作生态。