阿里云诚云科技-高级IT自维修工程师-国内属地运维(杭州)
任职要求
• 3年及以上服务器维修相关⼯作经验 • 熟悉数据中心行业IT运维硬件相关基本技术标准 • IT运维专业技术功底扎实,具有较强的服务器维修理论基础,掌握数据中心各类机型服务器的拆机维修 • 可协助IM制定机房日常运维及服…
工作职责
1、负责辖区内机房自维修运维管理工作,结合IDC实际情况均衡考虑服务质量、效率、成本及安全,持续优化及改进以支撑部门的业务运营; 2、负责辖区内机房自维修的服务器维修整体质量,包括:人员能力、技术储备和备件质量,协助现场服务器维修达成维修SLA; 3、负责辖区内机房现场自维修进行日常自维修工单操作和流程指导,支撑不断扩大的自维修体量,确保相关指标满足业务整体需求; 4、针对不断扩充的自维修新机型,梳理基于现场实际情况的操作手册,同时对一线人员进行培训与认证,确保全国人员能力满足项目推进要求; 5、基于自维修项目,配合实现专业领域的边界拓展,包括但不限于专利、新技术、新产品等。
1、负责辖区内机房自维修运维管理工作,结合IDC实际情况均衡考虑服务质量、效率、成本及安全,持续优化及改进以支撑部门的业务运营; 2、负责辖区内机房自维修的服务器维修整体质量,包括:人员能力、技术储备和备件质量,协助现场服务器维修达成维修SLA; 3、负责辖区内机房现场自维修进行日常自维修工单操作和流程指导,支撑不断扩大的自维修体量,确保相关指标满足业务整体需求; 4、针对不断扩充的自维修新机型,梳理基于现场实际情况的操作手册,同时对一线人员进行培训与认证,确保全国人员能力满足项目推进要求; 5、基于自维修项目,配合实现专业领域的边界拓展,包括但不限于专利、新技术、新产品等。
1、负责辖区内机房自维修运维管理工作,结合IDC实际情况均衡考虑服务质量、效率、成本及安全,持续优化及改进以支撑部门的业务运营; 2、负责辖区内机房自维修的服务器维修整体质量,包括:人员能力、技术储备和备件质量,协助现场服务器维修达成维修SLA; 3、负责辖区内机房现场自维修进行日常自维修工单操作和流程指导,支撑不断扩大的自维修体量,确保相关指标满足业务整体需求; 4、针对不断扩充的自维修新机型,梳理基于现场实际情况的操作手册,同时对一线人员进行培训与认证,确保全国人员能力满足项目推进要求; 5、基于自维修项目,配合实现专业领域的边界拓展,包括但不限于专利、新技术、新产品等。
1、负责荣耀PaaS平台自建存储中间件Redis/Elasticsearch/MQ方向平台服务的研发工作,使其具备全球多云部署、异地多活、云原生等技术竞争力,支撑荣耀公司全量应用; 2、负责自建存储中间件线上疑难问题定位分析、性能瓶颈分析、存储成本优化等解决方案设计开发; 3、洞察业务需求,承担下一代存储中间件系统的技术预研和落地,探索新技术应用,实现性能、成本的极致。
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。