
得物【技术保障】资深基础设施SRE
任职要求
1.本科学历及以上,3-5年以上基础设施相关运维经验 2.熟练使用Linux系统,至少能掌握Python/Shell/GO等一至两种语言,有项目开发经验者优先 3.精通X86服务器硬件组件/子系统CPU,Disk,Memory,内核,熟悉分布式存储等优先; 4.熟悉服务器厂商售后及机房现场管理。 5.有丰富的…
工作职责
1.负责公司线上及线下基础设施相关运维,提升系统稳定性和运维效率; 2.公有云/IDC资源相关需求受理及交付管理,负责各业务中短期和特殊资源需求的接收、分析、规划匹配、建设、交付跟进; 3.负责服务器、存储、基础服务等Iaas/Paas层技术评估、监控、调优、诊断及软硬件优化和故障定位分析; 4.评估硬件功能方案、基于新产品的运维场景下、完善各个过程的新产品适配可用维保障; 5.负责设备生命周期自运营维护; 6.完善运维过程的硬件/系统的技术方案输出和标准化

职位描述 1. 定位为资深AI Infra Arch,在AI算力基础设施、AI推理和训练框架全栈底层技术方面有丰富经验技术,可带领团队建设AI平台,助力CV/NLP/AIGC/社区/搜广推等算法业务场景提升效率,加速AI能力向业务效果的转换。 2. 负责设计研发得物AI平台,对AI算力相关相关资源(GPU/TPU/CPU、存储、网络等)做平台化管理,持续提升资源利用率,为业务提供一个满足企业级稳定性和性能要求的AI平台。 3. 负责训练和推理引擎优化,助力各算法业务场景提升模型迭代效率、提高推理服务性能。 4. 解决规模增长带来的技术和业务问题。 5. 解决多云场景下的AI算力资源、数据资源的管理问题,以及业务使用效率问题,目标是降本提效。

1、参与基础设施相关的配置标准化、资源交付、容量/成本管理、变更及相关应急工作, 2、践行运维规范、流程,并能将其工具化,提升效率与稳定性, 3、研究前沿技术,推动团队能力提升,建立高标准的可用性保障体系。
职位详情 我们正在寻找一位具有扎实K8S资源编排方向工程师,参与K8S相关的调度、网络插件、存储插件、自动扩缩容等相关工作。需要对基础架构相关有一定的熟悉,并对各家云厂商IaaS技术有一定的了解。 深入分析Kubernetes源代码,针对线上场景,定制部分功能,包含不限于调度插件、CSI、CNI等控制器的编写。 分析、定位并优化Kubernetes环境中的基础设施相关问题,提供高效、可行的解决方案。 参与跨部门协作,与系统团队写作,共同保障Kubernetes基础设施稳定性。 参与Kubernetes集群混合部署的设计与优化、调度器编写,充分利用底层IaaS能力,提升集群整体使用率与稳定性。 参与Kubernetes相关方向QA和测试的工作。规划测试用例并且完成部分保障线上,集群版本的稳定。有一定的QA经验优先。
