logo of alibaba

阿里巴巴业务技术-大模型推理与调度研发工程师-AI infra

社招全职2年以上地点:杭州状态:招聘

任职要求


1. 2年及以上工作经验,本科及以上学历,计算机/电子/自动化/软件等相关专业,有AI工程优化经验的优先;
2. 精通C/C++,精通算法数据结构,熟悉Python;
3. 熟练GPU的高性能计算优化技术,深入理解计算机体系结构,熟悉并行计算优化、访存优化,低比特计算等;
4. 具备丰富的基于C
登录查看完整任职要求
微信扫码,1秒登录

工作职责


立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化。基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率,具体:
● 异构算力调度与算力池化(核心):负责 GPU / CPU / 其他异构算力的统一调度与算力池化。设计并实现弹性伸缩、资源混布、潮汐资源盘活、Quota 管理等能力,提升整体资源利用率与成本效率。
● 推理调度策略与性能优化:以 KV Cache 为核心进行调度优化(如 Session 亲和、Cache 共享、Shard 拓扑感知等),实现高吞吐、低时延与稳定的推理体验。
● 资源编排与多云治理:构建多机房、多地域、多云环境下的统一调度策略,实现跨地域容灾与就近访问。
● 推理框架与系统优化:协同底层网络 / 存储团队,优化 RDMA、高速网络、缓存 / 存储路径,充分释放大规模集群算力。
● 平台稳定性与问题治理:
    ○ 负责推理平台的稳定性建设:故障监控、压测与容量规划、问题定位与根因分析。
    ○ 在多异构资源(GPU、CPU、NPU 等)、多云环境、复杂网络场景下,实现快速问题诊断、隔离与恢复。
包括英文材料
学历+
C+
C+++
算法+
数据结构+
Python+
还有更多 •••
相关职位

logo of xpeng
校招

【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责将大规模VLM/VLA模型高效部署于定制化芯片(NPU、TPU、ASIC、FPGA、GPU集群等); - 通过高效模型架构、推理图编译、算子融合与低延迟优化等方式,提升模型在各类硬件平台下的吞吐与功耗表现; - 设计并实现高性能推理框架,支持如长上下文、视频时空建模、工具调用等复杂功能; - 负责模型压缩与加速(量化INT8/FP8、蒸馏、剪枝、缓存、流式推理等)相关技术方案落地; - 联合芯片及系统团队,优化内存访问、调度策略、通信结构,达成端到端推理性能突破。

更新于 2025-10-22上海|深圳|北京
logo of sf
社招5-10年

岗位职责: 1. 大模型基础架构设计与研发: * 负责大模型基础架构的设计、研发和优化,包括模型训练、推理过程中的高效计算资源调度、内存优化、网络传输优化等。 * 参与大模型推理服务的搭建与部署,确保系统的高可用性、高性能和可扩展性。 2. 推理优化与性能提升: * 负责大模型推理过程中的性能优化,优化模型推理速度、内存消耗和计算资源使用。 * 根据不同的应用场景,优化推理算法和模型压缩技术,实现低延迟和高吞吐量的推理服务。 3. 主流推理框架的应用与定制: * 熟悉并使用主流的大模型推理框架(如TensorRT、ONNX Runtime、DeepSpeed等),并能够根据需求进行定制化开发与优化。 * 结合实际业务需求,灵活调整推理框架的配置和参数,提升整体推理效率。 4. 分布式系统开发与优化: * 设计并实现大模型推理在分布式系统中的高效调度与协同工作,确保大规模并发请求的处理能力。 * 优化分布式系统的通信、负载均衡、容错能力等,提升系统的整体稳定性和性能。 5. 系统调优与故障排查: * 定期进行系统性能评估和瓶颈分析,提出系统优化方案并实施。 * 能够快速定位和解决系统性能瓶颈和推理过程中的各类问题,确保系统高效、稳定运行。 6. 技术创新与团队协作: * 跟踪大模型基础架构领域的最新研究与技术进展,提出创新性的技术方案。 * 与团队成员密切合作,共同推动技术解决方案的实施与落地。

更新于 2025-05-28深圳
logo of alibaba
社招1年以上

1. 负责大模型(LLM/MLLM)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 基于淘天用户丰富的消费行为,打造技术先进的电商用户理解大模型,提升对用户的异构行为本质的认知能力,支撑用户个性化的搜索、商详、互动等多种电商业务场景; 4. 基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用; 5. 持续跟踪、探索大模型/多模态大模型方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性。

更新于 2025-11-18北京|杭州
logo of baidu
校招AIDU项目

-负责先进大模型在搜索业务中的应用,设计并建设超大规模在线模型推理系统,实现数万张XPU卡的高效调度与管理,支持百万级QPS的实时推理请求; -负责研究并落地大模型预训练、量化、蒸馏、稀疏化等最新技术,持续优化业务模型训练、推理成本,支持大模型分布式高效训练与推理等; -负责面向搜索的一站式机器学习平台的设计和研发,支持从数据处理、模型训练、推理优化到上线部署的全流程自动化,不断提升模型迭代效率; -紧跟业界大模型技术发展动态与业务应用情况,积极参与并打造行业领先的智能化搜索新产品,共同推动百度搜索技术不断创新、完成变革。

更新于 2025-05-19北京