
商汤大装置-智算平台产品经理
任职要求
1. 3年以上产品管理经验 2. 熟悉云原生(K8s)+ Observability(metrics/logs/tracing)其中一个方向 3. 熟悉模型开发→部署→推理流程 4. 能跟工程/算法团队沟通需求 5. 数据分析能力强 6. 有较强的 ToB/…
工作职责
负责或参与以下产品(包括但不限于)的战略与规划、需求挖掘与定义、产品设计、技术协同与交付、全生命周期管理、效果评估与迭代, 1. AI Observability 产品 2. MLOps 平台产品 3. 数据指标体系与 BI 可视化产品

1. 负责智能算力平台、云平台、私有化等交付项目的全生命周期管理。 2. 识别并管理项目风险,及时解决问题,保障项目目标达成。 3. 统筹项目团队,协调内外部资源,推动多方高效协作。 4. 制定、优化并推动项目管理流程的落地实施,提升项目管理效率和标准化水平。

你将加入商汤科技大装置智能云事业群,协助交付项目经理推进 智能算力平台、云平台、私有化项目 的落地执行,参与企业级 AI 基础设施项目的全生命周期管理。 这是一个能够快速提升项目管理能力、了解云与智算行业、接触头部客户交付场景的实习机会。 岗位职责 1. 协助交付项目经理跟进项目进度:收集项目状态、整理任务列表、更新项目计划,推动事项闭环。 2. 参与交付流程文档工作:协助编写需求文档、实施方案、验收材料、会议纪要等交付文档。 3. 参与项目配置与交付准备工作:在项目经理指导下完成资源申请、环境准备、配置录入等基础交付操作。 4. 跨团队沟通支持:与研发、测试、售前、运维团队协作,推动信息同步与问题流转。 5. 项目运营与数据整理:协助收集并整理项目数据、风险清单、问题列表,为项目复盘提供输入。 6. 完成领导安排的其他交付支持相关工作。

【方向一:SRE团队的物理网络工程师】 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。 【方向二:系统架构组的网络架构师】 1. 负责 Underlay 网络架构设计规划,构建骨干网与云计算数据中心网络,并与虚拟网络协同,打造业界领先的云网一体化基础设施; 2. 负责高性能、高可用、高稳定的大规模云网络架构规划与骨干网架构构建以及技术细节; 3. 负责 IPAM、网络 QoS、数据网、训练/推理网监控系统的方案设计,构建数据中心物理网络的运维管理系统,满足性能和稳定性要求; 4. 负责多 region 的集群建设方案设计以及网络设备规划、成本计算,与硬件产品经理协同制定整体落地方案; 5. 负责新硬件的选型与准入工作,制定硬件准入的技术标准和测试流程,推动 sre 和研发进行设备的适配工作,网络硬件包括不限于:交换机、光模块、AOC 线缆等。 【方向三:云网络研发组的网络软件开发工程师】 1. 参与物理网络相关能力的方案研究与验证,将交换机配置、网络拓扑等能力进行 标准化与工程化抽象。 2. 研究华为、华三、Mellanox 等主流交换机的配置与特性,输出可复用的配置方案、模板或实现思路。 3. 根据云网络产品与平台需求,整理并实现交换机侧配置方案(如 CLI / NETCONF 调用),并与云网络研发团队协作落地。 4. 编写和维护与物理网络相关的 验证脚本、自动化工具或测试用例,提升网络交付、验证与问题定位效率。 5. 以工程化视角,配合网络 SRE 团队参与部分线上问题的辅助排查与初步定位,推动问题复盘与方案优化。 6. 整理物理网络相关的技术文档、方案说明与问题经验,促进团队内的知识沉淀与复用。

1. 负责 GPU 服务器的选型、准入测试和验收工作。 2. 分析 GPU 性能瓶颈并进行性能调优工作,定位并解决 GPU 和相关的硬件故障。 3. 负责构建稳定可靠的测试机制和测试系统,设计测试方案支撑上层业务系统。 4. 与产品研发团队协同配合,参与千卡/万卡集群互联的软硬件方案设计,解决新硬件和系统落地过程中的各类技术问题。 5. 持续跟进智算产业链的最新技术能力和硬件架构,设计出有竞争力的硬件解决方案,支持产品经理向客户输出硬件服务器的技术文档。 6. 结合 GPU 产品业务场景做成本和收益评估,确定技术方案以支撑算力迭代、资源折算、项目输出标准化方案制定等工作;