阿里云阿里云智能-技术服务专家(AI全栈)-金融行业-北京/上海/广州/深圳/成都/西安
任职要求
1. 计算机通信或相关专业本科及以上学历,有XPU硬件适配和大模型底层软硬件工程落地交付工作经验; 2. 熟悉PyTorch或TensorFlow等机器学习框架,了解张量、梯度等的基本数据结构和前后向传播原理; 3. 熟悉大模型推理框架vLLM、SGLang等业界主流推理引擎。 4. 熟悉XPU虚拟化和RDMA网络,了解虚拟化和资源分配与调度工作原理,了解RDMA主…
工作职责
1. 负责大模型运行所需的XPU相关软硬件平台的适配和优化工作,解决适配和优化过程中的兼容性、系统性能、稳定性、高可用等方面的技术问题; 2. 为客户提供XPU相关软硬件平台交付方案设计和部署落地服务,聚焦算力资源评估、底层软件选型、训推环境搭建、训推性能优化、大模型评测等领域为客户提供最佳实践和落地能力; 3. 为客户提供XPU算力资源池相关的高性能网络技术选型、规划设计、交付部署和性能优化服务,解决XPU、整机、POD接入和组网过程中的控制与转发技术问题; 4. 为客户提供训练数据集构建、数据合成、模型后训练、模型效果评测等服务。
阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。
阿里云专有云是面向政企行业客户的全栈云平台,为政企客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云AI安全技术方向的架构规划及研发工作,构建全面的AI安全防护体系,跟踪AI安全前沿技术,将研究成果转化为工程落地,插入链接提升技术竞争力,满足专有云客户的AI安全需求。 1、主导专有云AI安全架构设计 ● 设计并构建覆盖AI全生命周期的安全防护体系,包括数据安全、模型安全、推理安全等; ● 建立AI模型隐私保护机制,支持联邦学习、差分隐私、同态加密等隐私计算技术; ● 设计AI安全治理框架,确保AI系统的可解释性、公平性和可靠性; 2、主导AI安全技术研发和产品化落地: ● 研发AI对抗攻击检测与防护技术,包括对抗样本检测、模型后门检测、投毒攻击防护等; ● 开发AI数据安全技术,包括敏感数据识别、数据脱敏、数据水印等技术; ● 构建AI安全监控平台,实现AI系统运行时的实时安全监测和威胁预警; ● 协同AI平台团队,将安全能力深度集成到AI训练、推理、服务等各个环节;
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。