
商汤大装置-智算技术支持工程师
任职要求
1. 本科及以上学历,计算机或相关专业优先。 2. ≥3年大规模系统运维/技术支持/交付经验。 3. 熟练 Linux/UNIX,具备日志分析和性能调优能力。 4. 熟悉 Shell/Python/Java 中至少一种语言。 5. 熟悉 Docker、Kubernetes 等云原生体系(监控/日志/网络等)。 6. …
工作职责
负责商汤大装置智能云(算力平台、云平台、私有化部署)的技术支持与交付保障工作。 1. 为客户提供技术支持,响应并处理算力平台相关技术问题,指导客户使用平台产品。 2. 参与项目交付,支持环境部署、配置、验证、问题跟踪与闭环。 3. 分析日志、定位系统故障,推动产研解决问题,保障系统稳定运行。 4. 收集客户需求与改进建议,向产品与研发团队反馈并跟进落实。 5. 协助优化交付流程、支持技术文档建设。 6. 参与私有化项目的技术方案设计、部署架构规划与复杂场景问题排查。 7. 支持 AI 场景,理解大模型训练/推理的基本能力。

【方向一:SRE团队的物理网络工程师】 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。 【方向二:系统架构组的网络架构师】 1. 负责 Underlay 网络架构设计规划,构建骨干网与云计算数据中心网络,并与虚拟网络协同,打造业界领先的云网一体化基础设施; 2. 负责高性能、高可用、高稳定的大规模云网络架构规划与骨干网架构构建以及技术细节; 3. 负责 IPAM、网络 QoS、数据网、训练/推理网监控系统的方案设计,构建数据中心物理网络的运维管理系统,满足性能和稳定性要求; 4. 负责多 region 的集群建设方案设计以及网络设备规划、成本计算,与硬件产品经理协同制定整体落地方案; 5. 负责新硬件的选型与准入工作,制定硬件准入的技术标准和测试流程,推动 sre 和研发进行设备的适配工作,网络硬件包括不限于:交换机、光模块、AOC 线缆等。 【方向三:云网络研发组的网络软件开发工程师】 1. 参与物理网络相关能力的方案研究与验证,将交换机配置、网络拓扑等能力进行 标准化与工程化抽象。 2. 研究华为、华三、Mellanox 等主流交换机的配置与特性,输出可复用的配置方案、模板或实现思路。 3. 根据云网络产品与平台需求,整理并实现交换机侧配置方案(如 CLI / NETCONF 调用),并与云网络研发团队协作落地。 4. 编写和维护与物理网络相关的 验证脚本、自动化工具或测试用例,提升网络交付、验证与问题定位效率。 5. 以工程化视角,配合网络 SRE 团队参与部分线上问题的辅助排查与初步定位,推动问题复盘与方案优化。 6. 整理物理网络相关的技术文档、方案说明与问题经验,促进团队内的知识沉淀与复用。

1. 负责 GPU 服务器的选型、准入测试和验收工作。 2. 分析 GPU 性能瓶颈并进行性能调优工作,定位并解决 GPU 和相关的硬件故障。 3. 负责构建稳定可靠的测试机制和测试系统,设计测试方案支撑上层业务系统。 4. 与产品研发团队协同配合,参与千卡/万卡集群互联的软硬件方案设计,解决新硬件和系统落地过程中的各类技术问题。 5. 持续跟进智算产业链的最新技术能力和硬件架构,设计出有竞争力的硬件解决方案,支持产品经理向客户输出硬件服务器的技术文档。 6. 结合 GPU 产品业务场景做成本和收益评估,确定技术方案以支撑算力迭代、资源折算、项目输出标准化方案制定等工作;

1. 客户需求挖掘与方案设计 ·重点对接上海科研、政务等行业大KA客户,挖掘AI智算(高性能计算、分布式训练、大模型推理等)场景需求,输出技术解决方案。 ·洞察上海智算及大模型产业政策导向,针对上海本地化产业政策及行业生态,设计差异化解决方案。 2. 技术售前支持 ·主导与大KA客户的技术交流、产品演示、POC测试,解答客户技术问题,消除采购决策障碍。 ·协同产研团队,将客户需求转化为可落地的技术架构(如GPU资源调度、模型微调工具链等)。 3.跨团队协作 ·联动销售、交付、研发团队,确保解决方案可行性,推动公司重大项目从商机到交付的全周期管理。