小红书【REDstar】可观测研发工程师
任职要求
1、本科及以上学历,计算机、软件工程等相关专业优先; 2、精通 Java 或 Go 语言,熟悉并发编程、分布式系统、性能优化等,有扎实的编程基础; 3、熟悉云原生可观测性体系的相关产品及组件,包括不仅限于:OpenTelemetry、CAT、SkyWalking、Prometheus、VictoriaMetrics、ELK、ClickHouse、eBPF 等,了解 Kubernetes 基本原理并能运用; 4、熟悉基础技术开源组件,如 Linux、网络、存储、MQ 等,深入了解细节,掌握实现原理优先。 【加分项】 1、熟悉和使用 AI 场景相关技术,包括不仅限于:PyTorch、LLaMA-Factory、Spring AI、Langfuse、wandb 等; 2、善于发现、解决问题,善于总结、思考、跨团队协作,能吃苦耐劳; 3、关注业界新技术,好奇求知,有强烈的责任心及抗压能力。
工作职责
1、负责可观测体系研发工作,围绕 Metrics、Logging、Tracing、Profiling 四大支柱,从全栈领域展开可观测基础能力建设; 2、负责监控平台、全链路追踪、日志服务、计算引擎(流式分析、实时告警、时序检测等)、告警、eBPF 等可观测相关技术架构及产品设计; 3、保障可观测相关基础服务,在高并发环境下的高性能、高可用,推动技术、产品持续优化迭代; 4、落地 AI Infra 可观测、AI 应用可观测、可观测 AI+ 等相关技术,提高 AI 场景稳定性以及传统可观测产品使用体验和效率。
大模型AI Infrastructure团队专注于大语言模型领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验,为公司提供核心技术能力和服务。 1、负责机器学习框架的研究与开发,服务于公司各个产品; 2、高效部署,优化NLP/多模态大模型核心业务模型。
1、参与语言及多模态大模型的对齐技术研究与优化,聚焦于解决模型在复杂指令遵循、推理、幻觉、工具使用等问题中的表现瓶颈,提升模型的实用性与可靠性; 2、研究并理解模型能力与对齐之间的关系,探索更有效的对齐技术,包括可扩展的人类监督方法等,设计并执行复杂的理解性实验,分析大模型在不同数据分布和任务场景下的表现,发现并解决影响模型性能的关键问题; 3、开发和完善大模型的评测系统,对模型能力和对齐水平进行评测,识别并解决模型可能存在稳定性、安全和幻觉问题,利用多种方法分析、理解模型行为,并指导模型进行迭代; 4、与产品、工程、安全团队紧密合作,将研究成果有效落地,确保模型应用符合实际需求,并在关键技术上做到行业顶尖水平。
1、定性分析、定量评估数据质量,并给出 scalable 的改进方案,协助搭建多模态的数据流程; 2、搭建多模态的模型架构,在多种技术方案中找到 trade off 的关键,搭建更高效且可扩展的模型框架; 3、研究并改进多模态模型的 Scale Law,随着模型的变化给出 Large Scale 上的技术选择(例如参数/数据比、不同超参数设置等)。
文本大模型团队的主要负责小红书大语言模型的端到端全链路自研。主要研究方向包括: 1、持续探索大语言模型在不同阶段的高效scaling策略; 2、预训练的关键技术探索: 包括从数据策略(筛选,配比,合成,学习效率的提升)、优化技术、可解释性,到下一代模型结构的设计、long context建模、学习范式探索等; 3、通用alignment技术探索: 包括大规模RL的探索,持续提升大模型在通用能力、reasoning、长文本、agent、各方向中长尾知识等多个方向的综合能力,支撑更广泛的应用场景; 4、跟下游的多模态同学一起探索端到端全模态大模型的设计和高效scaling策略; 团队有充足的GPU计算资源,同时跟整个技术社区也有密切合作,开源开放。