小红书可观测研发实习生-基础技术
任职要求
任职资格 1、本科及以上学历,计算机、软件工程等相关专业优先; 2、至少擅长以下编程语言中的一种:Java,Go; 3、对云原生可观测相关技术有一定了解,包含不限于Metri…
工作职责
1、负责可观测体系研发工作,围绕Metric、Log、Trace三大支柱,从全栈领域展开可观测基础能力建设; 2、负责监控平台、全链路追踪、日志平台、计算引擎(流式分析、实时告警、时序检测等)、云原生可观测等相关技术架构及产品设计; 3、保障可观测相关基础服务,在高并发环境下的高性能、高可用,推动技术、产品持续优化迭代。
【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 你将专注于大规模AI训练系统最核心的性能优化赛道,直面千亿参数模型训练中的效率瓶颈,解决工业级AI系统在性能与规模上面临的真实挑战。 【岗位职责】 1、深入参与GPU异构计算栈的研发与调优,从算子、内存、通信多维度挖掘硬件极限性能;通过CUDA编程、内核融合、混合精度训练、通信与计算重叠等高级优化技术,不断提升训练引擎效率。 2、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 3、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。
你将加入SHEIN核心的数据库平台团队,深入参与公司级一站式数据库服务平台(DBMind)的设计、研发与优化工作。在这里,你不仅能接触到超大规模的数据库集群管理场景,还能与顶尖的技术专家一同应对全球化业务带来的技术挑战,将理论知识应用于前沿的平台化建设实践中,为提升全球研发与DBA的效率贡献力量。 1、平台功能研发:协助团队进行数据库管控平台 DBMind 的功能设计与开发,参与前端及后端模块的编码实现; 2、自动化流程建设:参与数据库自动化工作流的开发,如协助实现针对 MySQL, StarRocks, ClickHouse 等多种数据源的 DDL/DML 自动化审核与执行功能; 3、可观测性提升:协助开发和优化数据库监控与分析功能,例如慢查询分析、性能指标看板、数据库健康巡检报告等,提升问题定位效率; 4、技术调研与实践:在导师的指导下,对数据库领域的新技术、新工具进行调研、测试和落地,如数据库压测、数据回滚、告警自愈等; 5、质量与文档:参与编写单元测试、集成测试用例,确保代码质量;撰写和完善相关技术文档、使用手册,沉淀团队知识。
辅助产品经理开展云可观测性、高可用架构、平台工程相关的产品管理工作,包括需求调研、行业分析、产品规划、产品设计等工作; 参与学习和研究最新的可观测性、高可用、平台工程产品方案,为产品改进提供建议; 参与需求调研工作,与平台用户的需求沟通,理解和分解平台的需求,落实到产品规划和设计中; 参与产品研发落地工作,与研发团队保持紧密合作,协调组织设计、开发、测试资源推动产品发布和项目落地; 参与产品关键数据指标运营,产品用户反馈,持续优化产品;