阿里巴巴淘天算法技术-AI Infra高级专家-杭州/北京

社招全职5年以上2026-03-26地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能、机器学习或相关领域的硕士及以上学历，在剪枝、量化等相关领域发表过优秀论文优先，包括但不限于NeurIPS、ICLR、ICML等会议或期刊
2. 熟悉常见的分布式机器学习框架，Megatron、DeepSpeed、HuggingFace，熟悉分布式计算和并行计算的概念和技术，有相关的实际经验
3. 有工业界相关方向的实践经验者，包含但是不限于算法…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队背景：淘宝文本搜索算法团队是淘天集团内专注于创新和优化搜索技术的核心团队。我们的任务是通过持续研发高效、精准的搜索算法，以提升用户的在线购物体验和满意度，进而推动电商平台的商业成功。
工作职责
1. 和淘宝电商搜索业务紧密结合，设计和改进机器学习模型的架构，实现高效的搜索大型模型训练和推理系统（特别是大规模语言模型，GPT、LLaMA、通义千问等），确保其高效性和准确性，以提高计算性能和加速模型收敛
2. 负责百亿参数以上超大模型的推理训练与性能优化：进行搜索在线模型的性能分析和调优，识别和解决瓶颈问题，提高模型的训练和推理速度，以适应并充分利用硬件资源，确保在高效计算资源利用的前提下，提供快速响应的搜索业务体验
3. 应用不限于剪枝、量化、知识蒸馏，各种并行策略（DP/TP/PP/EP等）等技术来优化模型的复杂度和运行速度，同时探索模型在样本、训练、存储和推理的极致性能
4. 在大模型的Token压缩方面进行性能探索，包含入图前的超长token压缩甚至长token直接入图等性能优化，以满足大模型结合超长token在海量数据以及极致在线性能的应用
5. 和工程团队协同，依据训练推理机器资源水位以及优化空间，简化和加速模型训练和推理的部署过程，实现离线在线资源的高性价比利用。
6. 参与设计和优化淘宝整体搜索系统，包括多阶段漏斗设计和整体链路设计，确保系统的稳定性和高效性

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

学历+

NeurIPS+

ICLR+

ICML+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-容器高级产品专家（AI Infra 方向）-北京/杭州

社招8年以上云智能集团

1. 技术前瞻与需求洞察：深度跟踪容器、云原生技术前沿（如 Kubernetes 新特性、Serverless 演进、AI 训练/推理、AI Agent 架构、微服务治理等），精准识别内/外客户在不同场景中的核心需求，驱动产品创新方向与技术战略落地； 2. 竞品与市场分析：持续分析主流云厂商在容器编排、Serverless 算力、AI 训推方案、AI Agent 等领域的竞品动态，输出深度市场洞察报告，支撑产品差异化设计与战略决策，不断增强产品竞争力； 3. 产品全生命周期管理：主导核心容器产品（ ACK、ACS、ACR 等）在 AI Infra 方向的功能规划、需求定义、设计及商业化运营，从需求挖掘到规模化落地，推动市场份额与用户满意度提升； 4. 端到端解决方案设计：针对企业客户复杂业务场景（如 AI 训练/推理、AI Agent 应用、大数据应用等），设计端到端的容器解决方案，平衡调度性能、弹性容量、安全合规与成本优化等关键维度； 5. 跨职能协同：联动容器产品 PDSA、运营、研发、运维及 SA 架构师团队，高效推进产品从需求到上线的全流程交付，确保技术方案与客户业务目标精准匹配，提升交付质量与客户体验； 6. 产品运营与持续迭代：负责产品上线后的运营闭环，包括客户反馈深度分析、用户培训、市场活动支持及数据驱动的体验优化，通过持续迭代巩固产品市场地位与客户成功。

更新于 2026-07-09北京|杭州

阿里云智能-AI Infra 高级技术专家-杭州-杭州

社招8年以上云智能集团

负责阿里集团、阿里云战略级产品SLS研发，在日增数百PB级的超大规模实时数据之上，挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术，实时处理每日数百PB海量数据，并针对AI应用场景进行特定优化，提供智能、自动化数据检索和分析服务。加入该岗位，您将有机会在国内超大规模的实时日志平台上，打造新一代的AI基础设施。 1.定义下一代 AI 数据基座：基于现有海量日志平台，重构面向 Agent Runtime 的数据基础设施，解决高吞吐写入与低延迟语义检索共存的工程难题； 2.构建 Data + AI 飞轮：研发高性能的数据清洗与向量化流水线，从数据中实时化萃取高质量数据，构建AI存储和检索系统，通过构建数据反馈回路，使模型和Agent持续进化； 3.超大规模系统攻坚：维护并演进日处理百 PB 级数据的实时平台，在极致的成本与性能约束下，探索存算分离、混合索引等前沿技术落地。

更新于 2026-01-09杭州

基础设施与稳定性工程-AI Infra资源智能高级专家-杭州

社招5年以上技术类-数据

岗位概述：负责构建面向AI算力交付、资源管理、成本核算与业务运营的全链路BI体系。通过深度洞察AI算力流转、集群性能、资源利用率，设计智能化、可视化的决策分析平台，为AI资源管理团队、算力交付部门及高层提供精准的数据驱动决策支持，赋能算力资源优化配置、成本精细化治理与业务增长目标达成岗位职责： ● AI Infra BI体系设计与建设结合AI基础设施（算力集群、模型训练/推理、资源调度、成本核算）的业务特性，设计全链路BI数据架构，搭建覆盖算力交付、资源利用率、性能指标、成本消耗、业务产出的一站式数据分析平台；制定BI指标体系、数据口径规范与分析方法论，构建长期可演进的BI分析框架，支撑AI基础设施全生命周期运营管理。 ● 核心BI分析场景落地与赋能算力交付分析：对接AI算力交付全流程数据，分析算力供给、需求匹配、交付效率、客户/业务线算力消耗分布，定位交付瓶颈与优化空间，支撑算力交付策略与SLA达成。资源管理分析：基于AI资源管理平台数据，深度分析集群资源利用率、调度效率、资源争抢、闲置率等核心指标，输出资源优化方案，提升资源整体利用率与周转效率。成本精细化分析：搭建AI算力成本核算BI体系，分析不同业务线/模型/项目的成本收益比，实现成本精细化管控与降本增效。 ● BI可视化平台与数据产品建设设计并迭代BI可视化看板（如资源利用率看板、成本分析看板、交付进度看板），实现核心数据的实时/准实时展示与多维度钻取；推动BI数据产品化，将分析逻辑沉淀为可复用的分析工具/模板，降低数据查询门槛，提升数据获取效率。 ● 跨部门数据协同与决策支持深度对接算法团队、资源管理团队、商务团队，理解各角色数据需求，提供定制化分析报告与决策支持；推动跨部门数据打通与口径统一，解决AI基础设施场景下数据分散、口径不一致等问题，保障数据一致性与可用性。 ● 团队管理与技术沉淀制定团队工作规范与分析标准；沉淀BI分析方法论、数据模型、分析案例，提升团队整体数据洞察能力；跟踪BI前沿技术与AI基础设施领域技术动态，推动技术工具与分析方法的迭代升级。

更新于 2026-05-18杭州

悟空事业部-AI Infra研发高级工程师/专家-悟空

社招2年以上技术类-开发

作为钉钉悟空AI团队的Agent工程研发工程师，你将负责构建和优化支撑智能Agent应用落地的工程化平台。你需要深入理解大语言模型的能力边界，设计并实现从Agent框架、工具调用编排、记忆管理到多Agent协作的全链路基础设施，将前沿的Agent技术转化为稳定可靠的生产级能力，服务于钉钉亿级用户的智能化场景。核心职责 ● 负责Agent运行时框架的设计与开发，包括任务规划、工具调用、状态管理、异常恢复等核心模块，保障复杂场景下的执行稳定性和可观测性； ● 设计和实现Agent工具生态体系，包括工具注册发现、参数自动填充、执行结果解析、权限控制等，降低新工具接入成本； ● 构建Agent记忆管理系统，支持短期上下文记忆、长期向量记忆、知识图谱记忆等多层次记忆能力，提升Agent的连续对话和问题解决能力； ● 开发多Agent协作引擎，实现Agent之间的任务分解、协同调度、结果聚合等机制，支撑复杂业务流程的自动化处理； ● 建立Agent评估与优化体系，包括执行成功率、响应延迟、Token消耗等核心指标的监控告警，以及基于用户反馈的持续优化闭环； ● 与产品和算法团队紧密协作，理解业务需求，将Prompt工程、思维链、ReAct等前沿技术转化为可复用的工程组件； ● 参与开源社区贡献，跟踪LangChain、LlamaIndex、AutoGen等主流Agent框架的技术演进，推动团队技术选型和架构升级。

更新于 2026-07-06杭州