logo of xiaohongshu

小红书机器学习系统工程师 -AI技术部

社招全职后端开发地点:北京 | 上海状态:招聘

任职要求


1、至少熟练掌握Linux环境下 C/C++Pythongo 语言之一;
2、能够熟练使用至少一种主流的机器学习框架(TensorFlow / PyTorch等), 对框架内部实现有一定了解;
3、有良好的工作文档习惯。

我们对工作年限和方向经验不限,仅对计算机基础本身有要求。同时, 为了帮助理解职位要求, 以下是各细分方向加分项 : 

【平台开发方向】
1、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
2、了解 MySQLRedisMQ中间件原理;
3、熟悉 Kubernetes 架构;
4、熟悉 djangoflask等相关技术, 有其后端开发经验;
5、有实际的大规模分布式系统相关工作经历优先。

【训练优化方向】
1、对GPU编程、高性能网络、分布式存储、集群调度有了解;
2、熟悉至少一种经典深度学习模型及其应用场景, 如ResNet50、BERT;
3、能使用数学工具分析深度学习训练中的优化算法;
4、具有机器学习场景的分布式系统级调试、分析经验;
5、熟悉大规模系统下的算法设计

【推理引擎方向】
1、对深度学习训练和推理模型调试、调优有实操经验;
2、有 CUDA 开发经验, 熟悉TensorRT;
3、熟悉各类深度学习网络和算子底层实现细节;
4、熟悉并行计算算法, 擅长各类并行编程;
5、有软硬件联合设计的经验;
6、熟悉模型剪枝、量化等优化方法;
7、熟悉 TVM、MLIR、XLA 等模型优化工具;
8、对 GAN、强化学习、图神经网络、AutoML等有了解;
9、熟悉 GPU 体系结构,理解 GPU 软件栈,具备 GPU 性能分析的经验。

工作职责


【职位描述】
1、设计和实现机器学习平台业务系统, 包括工具链/组件等AI基础设施, 落地业务功能需求;
2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务模型;
3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。
包括英文材料
Linux+
C+
C+++
Python+
Go+
机器学习+
TensorFlow+
PyTorch+
分布式系统+
SQL+
MySQL+
Redis+
中间件+
Kubernetes+
Django+
Flask+
后端开发+
深度学习+
算法+
推理引擎+
性能调优+
CUDA+
相关职位

logo of antgroup
社招2年以上技术类-算法

1. 负责语音VAD,ASR,TTS等算法及新技术方案的研发,推进语音新技术的突破; 2. 负责语音对话、情感理解及交互、多模态交互等场景的算法方案设计和研发; 3. 负责语音相关技术在toB商业化场景中的应用,提升产品效果与体验。

更新于 2025-08-22
logo of bytedance
社招A157899

1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU 等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2024-08-26
logo of bytedance
社招A136215

1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2024-08-28
logo of bytedance
社招A219188

1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向海内外多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2024-10-10