logo of sensetime

商汤大装置-智算技术支持工程师

社招全职3年以上交付运维地点:上海 | 北京状态:招聘

任职要求


1. 本科及以上学历,计算机或相关专业优先。
2. ≥3年大规模系统运维/技术支持/交付经验。
3. 熟练 Linux/UNIX,具备日志分析和性能调优能力。
4. 熟悉 Shell/Python/Java 中至少一种语言。
5. 熟悉 Docker、Kubernetes 等云原生体系(监控/日志/网络等)。
6. …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责商汤大装置智能云(算力平台、云平台、私有化部署)的技术支持与交付保障工作。

1. 为客户提供技术支持,响应并处理算力平台相关技术问题,指导客户使用平台产品。
2. 参与项目交付,支持环境部署、配置、验证、问题跟踪与闭环。
3. 分析日志、定位系统故障,推动产研解决问题,保障系统稳定运行。
4. 收集客户需求与改进建议,向产品与研发团队反馈并跟进落实。
5. 协助优化交付流程、支持技术文档建设。
6. 参与私有化项目的技术方案设计、部署架构规划与复杂场景问题排查。
7. 支持 AI 场景,理解大模型训练/推理的基本能力。
包括英文材料
学历+
Linux+
Unix+
Bash+
Python+
Java+
还有更多 •••
相关职位

logo of sensetime
社招5年以上业务运维

本岗位隶属于 SRE 团队,负责智算集群与科研级基础设施中的 Underlay 物理网络交付与稳定性保障。 Underlay 网络作为云网络(Overlay)的底座能力,为上层 SDN、容器网络和算力平台提供高可靠、低时延、可预测的网络基础。 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。

更新于 2025-12-31北京|上海
logo of sensetime
社招1-3年后端开发

支持商汤SenseCore AI智算数据中心以及大模型应用开发平台等多产品的技术设计、开发工作; 开发并维护高可用,易扩展的后端服务; 优化后端服务的性能和可扩展性,分析并解决系统中的性能瓶颈; 设计和实现高效的 API 以及微服务架构,支持复杂的业务逻辑需求; 与前端、算法、DevOps 以及其他后端团队密切合作,共同推动技术解决方案的落地。

更新于 2026-02-11北京|杭州|上海
logo of sensetime
社招1-5年后端开发

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / SDN / RDMA / DPDK / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 3. 在物理网络与 Fabric 层,通过工程化与自动化方式支撑云网络平台能力。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。

更新于 2026-01-27北京|上海
logo of sensetime
社招业务运维

1. 负责 GPU 服务器的选型、准入测试和验收工作。 2. 分析 GPU 性能瓶颈并进行性能调优工作,定位并解决 GPU 和相关的硬件故障。 3. 负责构建稳定可靠的测试机制和测试系统,设计测试方案支撑上层业务系统。 4. 与产品研发团队协同配合,参与千卡/万卡集群互联的软硬件方案设计,解决新硬件和系统落地过程中的各类技术问题。 5. 持续跟进智算产业链的最新技术能力和硬件架构,设计出有竞争力的硬件解决方案,支持产品经理向客户输出硬件服务器的技术文档。 6. 结合 GPU 产品业务场景做成本和收益评估,确定技术方案以支撑算力迭代、资源折算、项目输出标准化方案制定等工作;

更新于 2025-07-31