阿里巴巴阿里妈妈-广告AI Serving研发工程师-北京
任职要求
1. 计算机、软件工程、电子信息、自动化、数学等相关专业背景。 2. 有较好的工程能力,熟练使用C++,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具。 3. 有下面一个或多个方面的背景优先: (1) 有AI相关领域背景,熟悉TensorFlow/PyTorch/XLA/MLIR/TVM等业界主流AI框架或编译器优先; (2) 有CPU/GPU/ASIC系统软件或硬件背景,熟悉计算机体系结构,熟悉并行编程(CUDA/OpenCL/ROCm等)优先; (3) 有代码生成和优化背景,熟悉GCC/LLVM等主流编译器的实现优先。 4. 我们还希望你:学习能力强,对新事物保有好奇心,能快速适应新环境 ;良好的沟通和团队协同能力 ;对所在领域有热情,善于独立思考并总结。
工作职责
面向电商场景的广告/搜索/推荐业务,针对 召回/排序/机制策略 和 多模态AI模型、以及超大规模稀疏特征与Embedding,打造高性能的AI Serving系统。开展: 1. CPU/GPU/ASIC软硬件协同优化,发挥数十万CPU核和近万加速卡的计算潜力; 2. 稠密大模型 结合 稀疏-稠密模型的广告深度学习系统优化、编译优化和算法优化; 3. 面向广告/搜索/推荐AI Serving的新迭代范式探索。
1. 主导新一代训练与推理引擎的架构设计与核心模块开发,支撑搜广推业务在长序列建模、生成式推荐、Agent 等前沿场景的规模落地。 2. 与存储、数据平台深度协同,打造端到端 ML 数据 Pipeline:统一特征管理、秒级调试、版本追踪与一键上线,让数据科学家专注模型创新。 3. 持续优化训推基础设施:自研 Embedding 高速存储、特征 DSL 引擎、弹性调度与服务化推理框架,实现 10x 级性能提升。 4. 跟踪 LLM / Agent 最新进展,将其工程化落地到搜索、广告、推荐及智能体业务,定义行业新标准。
我们是淘天集团阿里妈妈工程平台团队,致力于打造面向搜推广场景及AIGX应用的业界最强AI在线服务平台。团队服务于淘天电商核心业务,承担 广告模型超大规模特征工程和AI推理、LLM/Diffusion等大模型服务 的研发和优化等关键职责,在高性能在线服务(推荐系统/多模态大模型/大语言模型)、分布式系统(计算/存储/网络)、异构计算和AI编译优化(CPU/GPU/XPU)等课题上都具有业界最前沿的挑战。 1)负责超大规模生成式模型在线服务系统架构设计并推进落地; 2)负责大规模异构硬件系统inference在离线计算资源优化; 3)负责模型交付pipeline整体优化。
1. 负责AI Serving的研发与优化,包括但不限于大模型的高效推理算法、框架与系统; 2. 将业界开源/自研大模型应用于广告业务场景,实现创新应用; 3. 研究业界前沿的大语言模型,及相关的服务与优化框架。
岗位职责 1. 全链路AI基建开发 * 构建在线模型编排(Model Orchestration)能力,优化百万核级规模模型的资源调度、稳定性治理及跨系统复用。 * 主导特征工程平台(RedFeatureStore)建设,打通离线/在线数据一致性,支持超长序列建模、高商业价值特征探索等场景。 * 设计高性能推理引擎(RankML/RetrievalML),覆盖广告粗排、精排、创意优选等核心链路,实现算力与延迟的极致优化。 2. 下一代AI技术落地 * 推动GPU推理、AI编译器优化(算子融合/自动调优)、边缘存储等技术的深度应用,提升服务性能。 * 探索LLM、RAG、Agent技术在广告场景的应用,重构创意生成、相关性建模等业务的工作流。 3. 工程效能与稳定性 * 主导C++服务框架、容器化、混部资源优化,解决高并发场景下的长尾延迟、CPU利用率等核心问题。 * 构建自动化诊断工具链,提升复杂系统的可观测性与故障恢复效率。