
商汤大装置-虚拟化与DPU卸载工程师
任职要求
1. 本科及以上学历,计算机及相关专业。 2. 5年以上软件开发经验,至少3年虚拟化相关经验; 3. 熟悉 KVM、QEMU 等技术; 3. 熟悉 DPU 软硬件生态; 4. 熟悉 I/O 虚拟化技术,了解 VirtIO、VFIO、IOMMU、SR-IOV 等技术; 5. 熟悉 DPDK、SPDK 等技术; 6. 熟悉 Dock…
工作职责
1. 负责软硬件结合的虚拟化、裸金属以及容器环境生态支持,以 DPU 重新定义下一代数据中心,构建更先进的 AI Infra 底座; 2. 负责 Hypervisor、计算节点 控制面 和 数据面 卸载方案的制定与生产实践落地; 3. 负责 NVIDIA BlueField 和其他国产 DPU 的卸载工作,提供完整的虚拟化技术方案,配合计算、网络、存储、安全产品完成整体卸载工作; 4. 负责虚拟化底层技术的性能优化以及稳定性建设, 通过技术手段提升节点资源利用率,持续降低基础设施成本; 5. 参与云原生方向容器安全技术架构的设计、研发,负责公有云和私有云等多云场景下容器安全的落地。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / SDN / RDMA / DPDK / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 3. 在物理网络与 Fabric 层,通过工程化与自动化方式支撑云网络平台能力。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。

【方向一:SRE团队的物理网络工程师】 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。 【方向二:系统架构组的网络架构师】 1. 负责 Underlay 网络架构设计规划,构建骨干网与云计算数据中心网络,并与虚拟网络协同,打造业界领先的云网一体化基础设施; 2. 负责高性能、高可用、高稳定的大规模云网络架构规划与骨干网架构构建以及技术细节; 3. 负责 IPAM、网络 QoS、数据网、训练/推理网监控系统的方案设计,构建数据中心物理网络的运维管理系统,满足性能和稳定性要求; 4. 负责多 region 的集群建设方案设计以及网络设备规划、成本计算,与硬件产品经理协同制定整体落地方案; 5. 负责新硬件的选型与准入工作,制定硬件准入的技术标准和测试流程,推动 sre 和研发进行设备的适配工作,网络硬件包括不限于:交换机、光模块、AOC 线缆等。 【方向三:云网络研发组的网络软件开发工程师】 1. 参与物理网络相关能力的方案研究与验证,将交换机配置、网络拓扑等能力进行 标准化与工程化抽象。 2. 研究华为、华三、Mellanox 等主流交换机的配置与特性,输出可复用的配置方案、模板或实现思路。 3. 根据云网络产品与平台需求,整理并实现交换机侧配置方案(如 CLI / NETCONF 调用),并与云网络研发团队协作落地。 4. 编写和维护与物理网络相关的 验证脚本、自动化工具或测试用例,提升网络交付、验证与问题定位效率。 5. 以工程化视角,配合网络 SRE 团队参与部分线上问题的辅助排查与初步定位,推动问题复盘与方案优化。 6. 整理物理网络相关的技术文档、方案说明与问题经验,促进团队内的知识沉淀与复用。

1、负责智算行业解决方案专项任务,能够基于市场反馈和项目实践,完善解决方案,并输出产品优化建议与迭代方向,推动产品与市场之间的闭环联动,持续提升产品竞争力与市场适配性; 2、掌握智算行业市场动态及趋势,引导客户对智算业务的理解和认知,协助商务推进业务落地,包括但不限于方案策略、市场判断、客户关系判断、高层谈判等; 3、具备在“AI+云”新兴业务及行业领域的解决方案拓展能力,能够深入理解并梳理行业需求,结合产品特性制定可落地的整体解决方案和产品形态; 4、协调内外部机构,能够拉通产线、商务以及周边支撑职能,以全流程视角实现解决方案落地,保障业务高效流转。

1. 作为高级解决方案经理,能够承担某一场景/行业解决方案专项任务,输出面向客户的解决方案规划设计; 2. 深刻理解公司产品体系,能够基于项目实践持续深耕,不断丰富完善解决方案,强化解决方案竞争力; 3. 结合对市场端以及竞争态势洞察,探索“AI+云”新业务新市场机会,能够由模糊的市场端输入提炼出体系化、规范化细化需求,向内输出产品改进以及优化建议,推动产品与市场闭环流转,促进产品竞争力提升; 4. 有一定项目管理能力以及全局视角工作把控能力;能够拉通内部产线、前场销售以及周边支撑职能,充分形成内部合力,以全流程视角实现解决方案落地,保障业务高效流转; 5. 配合前场销售推进业务拓展,对项目进行有效技术管理以及客户满意度维护,实现方案落地,保障项目拓展目标达成。