小红书高性能计算资深工程师(AI分布式训练方向)

社招全职机器学习平台2025-07-16地点：北京 | 上海 | 广州状态：招聘

扫码手机上打开

任职要求

1、熟练掌握Linux环境下的C/C++、Python语言；
2、具备扎实的计算机科学功底和编程能力，熟悉常见算法和数据结构，具有良好的编程习惯；
3、能…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

大模型AI Infrastructure团队专注于大语言模型领域的前沿技术研究和落地，提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验，为公司提供核心技术能力和服务。
1、负责机器学习框架的研究与开发，服务于公司各个产品；
2、高效部署，优化NLP/多模态大模型核心业务模型；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

C+

C+++

Python+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

资深后端开发工程师-AI计算效率

社招A197982

团队介绍：Data AML是字节跳动公司的机器学习中台，为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力，并在这些业务的问题上研究一些具有通用性和创新性的算法。同时，也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外，AML还在AI for Science，科学计算等领域做一些前沿研究。 1、负责GPU中央算力池的建设和运维工作，通过更合理的资源调度策略，创造更多AI算力； 2、负责全集团GPU数据的采集、加工和挖掘工作，依靠数据支撑，做好整个集团的GPU管理工作，包括：预算、交付、资源提效、二次利用等。

更新于 2025-12-05北京

阿里云智能-云网络系统研究工程师（AI方向）-杭州

社招3年以上云智能集团

1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计，覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈，提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术，系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境，设计并落地面向 AI 流量的多路径传输优化机制，实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点，完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发，构建可快速迭代的原型系统，验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造，推动方案产品化落地，并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略，从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划，识别热点与瓶颈，落地针对性优化措施，保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型，设计并研发超大规模网络分析与智能运维系统，提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景，如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势，并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享，增强团队和个人在业界的技术影响力。

更新于 2025-12-24杭州

资深算法工程师(MJ029430)

社招2年以上旅游业务AI &

1.主导大模型的算法研究、训练调优及工程化落地，提升模型性能和效率 2.探索大模型压缩、分布式训练、推理加速等技术（如量化、MoE、FlashAttention等） 3.结合业务场景（如对话系统、内容生成、知识推理）设计模型优化方案，解决数据稀疏性、幻觉抑制等挑战 4.跟踪学术界与工业界最新进展，推动技术成果转化 5.主导技术方案输出，协同工程团队实现高性能服务部署

更新于 2025-08-04上海

资深算法工程师,模型后训练

社招2年以上AI与数据分析

随着AI技术在公司核心业务中的深度应用，我们发现通用的提示词工程已难以满足我们对高精度、高效率的业务指标要求。与此同时，业界小尺寸基础模型的成熟为我们通过微调（Fine-tuning）打造专属、高效的AI模型提供了绝佳契机。为抓住这一机遇，我们正在寻找一位在AI模型训练与应用开发领域均拥有丰富实战经验的复合型工程师。您不仅需要主导模型微调的技术路线与实践，利用即将到位的本地化尖端硬件资源，打造高性能的定制化模型；更需要具备将强大模型能力转化为创新应用的能力，打通从模型到产品的全链路，直接驱动业务价值的提升。岗位职责： 1. 模型微调与训练：负责大语言模型（LLM）或多模态模型的微调工作，包括但不限于指令微调（SFT）、基于人类反馈的强化学习（RLHF）、LoRA/QLoRA等高效微调技术的实践与优化。 2. 技术方案设计：针对具体的业务场景，设计并实施从数据准备、模型选型、训练策略到效果评估的全流程微调方案。 3. 训练平台搭建与优化：负责在新的本地化硬件集群（多GPU服务器）上搭建、配置和优化模型训练环境，确保训练任务的高效、稳定运行。 4. LLM应用开发与集成： o 参与或主导基于大模型的应用开发，包括但不限于构建检索增强生成（RAG）系统、开发智能体（Agent）应用。 o 将微调后的模型封装为高效稳定的API服务，并与现有业务系统进行集成。（加分项） 5. 性能评估与迭代：建立科学的模型与应用评估体系，持续跟踪模型在精确度、响应速度、业务效果等方面的表现，并进行快速迭代优化。 6. 技术探索与创新：紧跟AI模型训练与应用领域的前沿技术动态，研究和引入最新的框架、算法和工具，持续提升团队的技术实力。

上海