阿里巴巴淘天算法技术-AI Infra高级专家-杭州/北京
任职要求
1. 计算机科学、人工智能、机器学习或相关领域的硕士及以上学历,在剪枝、量化等相关领域发表过优秀论文优先,包括但不限于NeurIPS、ICLR、ICML等会议或期刊 2. 熟悉常见的分布式机器学习框架,Megatron、DeepSpeed、HuggingFace,熟悉分布式计算和并行计算的概念和技术,有相关的实际经验 3. 有工业界相关方向的实践经验者,包含但是不限于算法…
工作职责
团队背景:淘宝文本搜索算法团队是淘天集团内专注于创新和优化搜索技术的核心团队。我们的任务是通过持续研发高效、精准的搜索算法,以提升用户的在线购物体验和满意度,进而推动电商平台的商业成功。 工作职责 1. 和淘宝电商搜索业务紧密结合,设计和改进机器学习模型的架构,实现高效的搜索大型模型训练和推理系统(特别是大规模语言模型,GPT、LLaMA、通义千问等),确保其高效性和准确性,以提高计算性能和加速模型收敛 2. 负责百亿参数以上超大模型的推理训练与性能优化:进行搜索在线模型的性能分析和调优,识别和解决瓶颈问题,提高模型的训练和推理速度,以适应并充分利用硬件资源,确保在高效计算资源利用的前提下,提供快速响应的搜索业务体验 3. 应用不限于剪枝、量化、知识蒸馏,各种并行策略(DP/TP/PP/EP等)等技术来优化模型的复杂度和运行速度,同时探索模型在样本、训练、存储和推理的极致性能 4. 在大模型的Token压缩方面进行性能探索,包含入图前的超长token压缩甚至长token直接入图等性能优化,以满足大模型结合超长token在海量数据以及极致在线性能的应用 5. 和工程团队协同,依据训练推理机器资源水位以及优化空间,简化和加速模型训练和推理的部署过程,实现离线在线资源的高性价比利用。 6. 参与设计和优化淘宝整体搜索系统,包括多阶段漏斗设计和整体链路设计,确保系统的稳定性和高效性
1. 针对整机柜服务器产品进行全面的计算、互联、监控等能力的全面赋能和开发; 2. 寻找适合于整机柜异构服务器产品的业务产品并进行对应的昆仑组件设计和开发,包含性能评测分析、容器镜像等 3. 针对整机柜硬件架构及业务落地场景,构建故障异常case并能设计故障诊断方案; 4. 负责跟踪及研究主流GPU架构设计技术,参与下一代AI Infra的设计; 5. 根据业务画像,构建有竞争力的异构硬件和系统全链路的量化分析,形成数据决策数据库;有效推动异构服务器产品的规划和落地。
1. 负责百炼专属版大模型AI Infra产品定义、设计及商业化落地; 2. 制定产品策略以及商业策略,以业务成功为导向,协同研发工程师,售前架构师, 产品运营等多角色共同努力达成业务目标; 3. 深刻理解客户业务和场景需求,追踪行业发展趋势及技术发展动态,规划产品演进路径及迭代,保持具有持续产品力竞争优势; 4. 追踪标杆客户,确保技术可行性,以及对产品演进的持续反馈,沉淀最佳实践,标杆项目案例; 5. 收集客户需求,结合技术理解和研判,推动产品功能升级迭代,提升产品市场竞争力和市场占有率。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1.定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2.构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3.超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。