通义通义实验室 - 面向生成式AI的大规模在线服务系统全栈性能优化- 阿里星
任职要求
1. 来自全球Top高校计算机科学、人工智能、数学、物理或相关领域应届博士/顶尖硕士毕业生;在分布式系统、计算机体系结构、操作系统、高性能计算等领域有深入研究者优先。 2. 全栈系统视野与经验: (1)对大规模在线服务(特别是AI Serving)的架构有深刻理解,具备从应用请求到硬件执行的全链路性能分析、瓶颈定位和调优经验,深刻理解延迟、吞吐量、成本和可用性之间的复杂权衡。 (2)有以下一个或多个领域的研发与优化经验者优先:LLM推理服务系统(如vLLM, Triton, Ray Serve)、AI Agent框架、向量数据库或近似最近邻(ANN)库、图数据库或图计算引擎。 3. 核心系统与底层优化能力: (1)具备深厚的C++/Python编程能力和扎实的系统编程功底。 (2)精通GPU编程(CUDA)及相关的性能优化技术栈(如Cutlass, Triton),有高性能计算库或AI算子开发经验。 (3)熟悉分布式系统的核心组件与协议,对高性能网络通信(如RPC框架设计, RDMA)和资源编排(如Kubernetes)有实践经验。 4. 前沿探索与问题解决能力: (1)对AI Infra领域的系统性挑战充满热情,不满足于解决已知问题,能主动发现并定义新问题,并给出具备前瞻性的解决方案。 (2)跟踪AI系统领域的前沿进展,在相关顶级会议(如OSDI, SOSP, MLSys, ASPLOS, ISCA, NSDI等)上发表过论文者是重要的加分项。 (3)具备卓越的问题解决能力和owner精神,能主动驱动复杂跨团队项目的成功落地。
工作职责
我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。 具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递): 1. 大规模模型服务平台与智能调度系统设计: (1)负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化: (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化: (1)深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。
业务介绍: 我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。 岗位描述: 1、负责支持业务迭代:推进来自搜索、推荐、广告、用增各域的产品需求快速落地。 2、负责系统架构设计:负责搜索、推荐、广告引擎的架构设计与优化,支撑多语言场景下的高并发请求处理,满足全球用户低延迟、高可用的服务需求。 3、负责性能调优:针对召回排序、模型训练&推理、特征计算等模块进行工程性能优化(如分布式计算加速、内存管理、GPU资源调度等),提升算法迭代效率。 4、负责工程平台开发:构建算法与工程协同的标准化平台,包括特征实时化平台、在线推理服务框架、AB实验平台等,支持算法快速迭代与业务效果验证。 5、负责大模型工程优化:负责生成式AI技术的工程落地,包含大模型训练、推理加速、多模态内容生成等技术工作。 补充说明:同时也招聘面向25年应届毕业的同学;
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新;5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。