字节跳动服务器工艺工程师-基础设施
任职要求
1、多年服务器整机生产和改善经历; 2、熟悉服务器SMT、测试、装配流程,掌握试制和量产整机装配需求; 3、熟悉服务器DFA的知识和流程,能服根据服务器产品进行D…
工作职责
1、负责服务器产品制造工艺工作,识别和跟踪解决新产品DFM/DFT,确保量产导入; 2、负责OXM工厂服务器整机新产品前期的可行性评估,新工艺新制程验证和导入,新产品DFA报告制作; 3、负责协助OXM完成工艺流程优化、工装夹具制作以及改善; 4、组织专项改善,推动精益生产,优化工艺流程;提高生产效率、产品质量,降低制造成本; 5、负责服务器制造技术支持与管理,主导生产相关的重大异常处理,工艺难点攻关,工艺标准完善,标准化作业落实等; 6、负责协助OXM完成新产品试制、流程设定、系统维护;负责协助OXM完成EC导入及EC执行的跟进,问题反馈。
1、负责公司全球服务器的拆机、利旧、自维保场景下的质量管理与服务支持工作,保证相关业务正常开展; 2、负责服务器整机制造指标制定、监控、提升,管理OXM进行质量控制与质量提升; 3、负责服务器关键部件供应商QSA、QPA稽核、绩效考核、定期飞检、专项辅导,推动供应商持续改善; 4、负责服务器关键部件、利旧部件质量标准制定,包括外观标准,性能测试标准; 5、负责部件供应商出货质量监控与来料质量控制;整机制造与关键部件质量问题处理,包括异常处理、质量判责、RMA支持、MRB评审等。
1、负责公司全球服务器的拆机、利旧、自维保场景下的质量管理与服务支持工作,保证相关业务正常开展; 2、负责服务器整机制造指标制定、监控、提升,管理OXM进行质量控制与质量提升; 3、负责服务器关键部件供应商QSA、QPA稽核、绩效考核、定期飞检、专项辅导,推动供应商持续改善; 4、负责服务器关键部件、利旧部件质量标准制定,包括外观标准,性能测试标准; 5、负责部件供应商出货质量监控与来料质量控制;整机制造与关键部件质量问题处理,包括异常处理、质量判责、RMA支持、MRB评审等。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。