小红书【Ace顶尖实习生】Large Scale Machine Learning Model训练和推理性能极致优化
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、熟悉Linux/Unix平台上的C++编程,熟悉网络编程-多线程编程,有良好的编程习惯; 3、熟悉其中一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现者优先; 4、有扎实的专业基础知识,熟悉常用的数据结构和算法,对计算机系统结构-网络-操作系统等专业知识有深刻认知; 5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。 【…
工作职责
本课题研究面向超大规模机器学习模型的极致训练与推理性能优化,覆盖搜索、广告、推荐(搜广推)系统与大语言模型(LLM)两大核心方向。随着模型参数规模从十亿级跃升至万亿级、训练数据从 TB 迈向 PB、在线推理 QPS 持续攀升,底层算力、显存带宽、通信效率与系统稳定性面临前所未有的挑战。本课题致力于在算法、系统、硬件三层协同维度上构建业界领先的端到端解决方案,打造面向异构超大规模集群的极致性能基础设施。 在搜广推方向,研究内容涵盖稀疏 Embedding 的分布式存储与动态扩缩容、HugeCTR/TorchRec 级别的 GPU 训练加速、参数服务器与 AllReduce 混合并行架构、Embedding 通信压缩与流水化、特征工程与样本流的零拷贝优化,以及在线推理的低延迟图编译、算子融合、量化蒸馏与多模型共置调度,目标是在万亿参数稀疏模型下实现训练吞吐与推理时延的双重突破。 在 LLM 方向,研究内容覆盖 3D/4D 混合并行(DP/TP/PP/EP/SP)、MoE 专家路由与 All-to-All 通信优化、长上下文训练(Ring/Context Parallel)、FP8/FP4 低精度训练、RLHF 与强化学习训练框架;推理侧聚焦 PD 分离、Continuous Batching、PagedAttention、Speculative Decoding、KV Cache 分级缓存、量化(GPTQ/AWQ/SmoothQuant)以及面向 H 系列/国产芯片的 Kernel 极致优化(CUTLASS/Triton/CUDA)。
1、 根据集团战略发展方向,拓展浙江省地市政府、央国企领域及体制内目标客户和合作伙伴的云业务; 2、 负责地市政务关系管理,制定并推动区域、行业、重点客户市场拓展计划并执行; 3、针对数字政务、医疗、城市大脑、城市智算、行业大模型等领域,拉通政府及合作伙伴资源,挖掘和引导需求,创造商业机会; 4、与客户或合作伙伴进行重点项目对接,积极有效的推动合同拟定、谈判等商务流程; 5、协调公司内部产品、研发、运维、财务、法务等资源,积极有效的推动合同拟定、谈判等商务流程,高效达成销售业绩; 6、与政企客户和合作伙伴建立长期积极互动关系,促进阿里云政企业务的良性发展。
1、负责阿里云大客户的商务运作及拓展; 2、对互联网行业和云计算有较为深刻的洞察,对互联网AI行业生态链熟悉者优先; 3、有丰富的大客户维护经验和全局化视角,能够独立完成重点项目挖掘、布局、运作和管理; 4、有较强的内外部资源整合能力,完成项目的推动与落地,提升客户整体满意度;
1、提供迁云上云服务,协助客户将业务系统搬迁到阿里云公共云产品体系。 2、关键客户定期上门,为客户提供运维巡检报告,给客户提供用云优化建议。 3、技术问题的解答和故障排查,为客户出具故障报告和登门澄清。 4、关键项目的重保值守,配合客户完成系统上线和切流的稳定性保障。
1. 根据监管条件以及行业趋势,整合集团内外部营销资源及大数据能力,制定拉新、促活、挽留等信贷精准营销运营策略与方案,链接场景与机构客户,落实用户权益活动的设计与营销投放,提升运营效率,促进客户转化;B端互联网产品运营经验或技术垂类运营及云产品相关经验 2. 负责隐私计算及数据产品方案落地,建立营销产品&方案策略与服务体系,跟进机构客户的使用情况,同时做好业务全流程的数据转化运营及分析,推动营销产品&方案的更新迭代; 3. 总结提炼产品最佳实践,沉淀标准化方案并优化服务机制,整理和分析共性问题,推进产品改进、体验优化及客户自主服务;并及时监控、发现和解决客户的问题,不断提升客户满意度; 4. 协助商务,推进商务合同签约,并完成对机构的精准营销方案介绍以及业务规模预测等工作;