网易高级服务器开发工程师(在研自走棋)
任职要求
1. 计算机及相关专业本科及以上学历,工作经验2年以上; 2. 熟练掌握常用数据结构与算法; 3. 熟练掌握Python语言,熟悉C++,具…
工作职责
1. 负责系统/玩法功能模块设计、开发、迭代与维护; 2. 服务器框架的维护和性能优化; 3. 同策划及客户端人员进行有效沟通,分析、解决各种服务器的问题。
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。
我们正在寻找一位兼具后端开发功底与系统级视野的优秀工程师,加入我们致力于构建高性能软件研发基础设施的技术团队。 在这里,你将深度参与企业级编译系统、构建流水线与自动化发布平台的建设,专注于提升大规模项目的构建效率、稳定性和可复现性。如果你热爱底层技术、关注编译性能与构建可靠性,并希望在复杂工程场景中打造高效的研发基座,这正是为你准备的舞台! 你将负责: 1. 设计与维护高性能 CI/CD 构建平台 基于 Jenkins、GitLab CI 或自研系统,搭建支持多语言(C/C++/Go/Python)的自动化构建流水线;优化构建缓存、依赖管理与并行编译策略,显著缩短构建时间。 2. 构建和优化编译环境与工具链 管理和维护基于 GCC、Clang/LLVM的标准化编译环境,支持不同版本共存与按需切换;定制编译参数、警告规则与静态分析流程,提升代码质量与一致性。 3. 推动构建可重复性与确定性编译(Reproducible Builds) 实现构建过程的环境隔离(Docker/Singularity)、依赖锁定与输出校验,确保“一次构建,处处一致”,满足安全审计与发布合规要求。 4. 性能分析与构建加速优化 使用 time, strace, perf, Bear, compile_commands.json 等工具分析编译瓶颈;集成分布式编译方案(如 Incredibuild、distcc、sccache)或增量构建机制,提升大型项目编译速度。 5. 构建全链路可观测性系统 搭建覆盖构建耗时、失败率、资源消耗的监控体系,集成 Prometheus + Grafana;实现构建日志聚合、错误自动归因与趋势预警。 6. 推进基础设施即代码(IaC)与平台化能力建设 使用 Terraform/Ansible 自动化部署构建节点与编译集群;通过 API 和 Web 控制台提供自助式构建服务,提升研发效率。