logo of xiaohongshu

小红书高性能计算资深工程师(AI分布式训练方向)

社招全职机器学习平台地点:北京 | 上海 | 广州状态:招聘

任职要求


1、熟练掌握Linux环境下的C/C++Python语言;
2、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
3、能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


大模型AI Infrastructure团队专注于大语言模型领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验,为公司提供核心技术能力和服务。
1、负责机器学习框架的研究与开发,服务于公司各个产品;
2、高效部署,优化NLP/多模态大模型核心业务模型;
包括英文材料
Linux+
C+
C+++
Python+
算法+
还有更多 •••
相关职位

logo of bytedance
社招A197982

团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责GPU中央算力池的建设和运维工作,通过更合理的资源调度策略,创造更多AI算力; 2、负责全集团GPU数据的采集、加工和挖掘工作,依靠数据支撑,做好整个集团的GPU管理工作,包括:预算、交付、资源提效、二次利用等。

更新于 2025-12-05北京
logo of aliyun
社招3年以上云智能集团

1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。

更新于 2025-12-24杭州
logo of ctrip
社招2年以上旅游业务AI &

1.主导大模型的算法研究、训练调优及工程化落地,提升模型性能和效率 2.探索大模型压缩、分布式训练、推理加速等技术(如量化、MoE、FlashAttention等) 3.结合业务场景(如对话系统、内容生成、知识推理)设计模型优化方案,解决数据稀疏性、幻觉抑制等挑战 4.跟踪学术界与工业界最新进展,推动技术成果转化 5.主导技术方案输出,协同工程团队实现高性能服务部署

更新于 2025-08-04上海
logo of tesla
社招2年以上AI与数据分析

随着AI技术在公司核心业务中的深度应用,我们发现通用的提示词工程已难以满足我们对高精度、高效率的业务指标要求。与此同时,业界小尺寸基础模型的成熟为我们通过微调(Fine-tuning)打造专属、高效的AI模型提供了绝佳契机。 为抓住这一机遇,我们正在寻找一位在AI模型训练与应用开发领域均拥有丰富实战经验的复合型工程师。您不仅需要主导模型微调的技术路线与实践,利用即将到位的本地化尖端硬件资源,打造高性能的定制化模型;更需要具备将强大模型能力转化为创新应用的能力,打通从模型到产品的全链路,直接驱动业务价值的提升。 岗位职责: 1. 模型微调与训练: 负责大语言模型(LLM)或多模态模型的微调工作,包括但不限于指令微调(SFT)、基于人类反馈的强化学习(RLHF)、LoRA/QLoRA等高效微调技术的实践与优化。 2. 技术方案设计: 针对具体的业务场景,设计并实施从数据准备、模型选型、训练策略到效果评估的全流程微调方案。 3. 训练平台搭建与优化: 负责在新的本地化硬件集群(多GPU服务器)上搭建、配置和优化模型训练环境,确保训练任务的高效、稳定运行。 4. LLM应用开发与集成: o 参与或主导基于大模型的应用开发,包括但不限于构建检索增强生成(RAG)系统、开发智能体(Agent)应用。 o 将微调后的模型封装为高效稳定的API服务,并与现有业务系统进行集成。(加分项) 5. 性能评估与迭代: 建立科学的模型与应用评估体系,持续跟踪模型在精确度、响应速度、业务效果等方面的表现,并进行快速迭代优化。 6. 技术探索与创新: 紧跟AI模型训练与应用领域的前沿技术动态,研究和引入最新的框架、算法和工具,持续提升团队的技术实力。

上海