小红书机器学习系统工程师 -AI技术部
任职要求
1、至少熟练掌握Linux环境下 C/C++、Python、go 语言之一; 2、能够熟练使用至少一种主流的机器学习框架(TensorFlow / PyTorch等), 对框架内部实现有一定了解; 3、有良好的工作文档习惯。 我们对工作年限和方向经验不限,仅对计算机基础本身有要求。同时, 为了帮助理解职位要求, 以下是各细分方向加分项 : 【平台开发方向】 1、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护; 2、了解 MySQL、Redis、MQ等中间件原理; 3、熟悉 Kubernetes 架构; 4、熟悉 django、flask等相关技术, 有其后端开发经验; 5、有实际的大规模分布式系统相关工作经历优先。 【训练优化方向】 1、对GPU编程、高性能网络、分布式存储、集群调度有了解; 2、熟悉至少一种经典深度学习模型及其应用场景, 如ResNet50、BERT; 3、能使用数学工具分析深度学习训练中的优化算法; 4、具有机器学习场景的分布式系统级调试、分析经验; 5、熟悉大规模系统下的算法设计 【推理引擎方向】 1、对深度学习训练和推理模型调试、调优有实操经验; 2、有 CUDA 开发经验, 熟悉TensorRT; 3、熟悉各类深度学习网络和算子底层实现细节; 4、熟悉并行计算算法, 擅长各类并行编程; 5、有软硬件联合设计的经验; 6、熟悉模型剪枝、量化等优化方法; 7、熟悉 TVM、MLIR、XLA 等模型优化工具; 8、对 GAN、强化学习、图神经网络、AutoML等有了解; 9、熟悉 GPU 体系结构,理解 GPU 软件栈,具备 GPU 性能分析的经验。
工作职责
【职位描述】 1、设计和实现机器学习平台业务系统, 包括工具链/组件等AI基础设施, 落地业务功能需求; 2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务模型; 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。
1. 负责语音VAD,ASR,TTS等算法及新技术方案的研发,推进语音新技术的突破; 2. 负责语音对话、情感理解及交互、多模态交互等场景的算法方案设计和研发; 3. 负责语音相关技术在toB商业化场景中的应用,提升产品效果与体验。
1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU 等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。
1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。
1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向海内外多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。