通义通义实验室-技术专家-大模型应用层系统研发

社招全职3年以上技术类-开发2025-12-17地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、计算机及相关专业硕士及以上学历，计算机、软件工程、系统架构等相关专业背景；
2、5 年以上大型平台系统、DevInfra 架构或 AI 平台服务端开发经验，有大模型应用和系统经验者优先；
3、深刻理解分布式系统设计原理，熟悉微服务、服务网格、异步编排、服务容灾等高可用系统架构设计；
4、熟练掌握主流 DevOps/DevInfra 工具链，具备构建自动化研发流程的能力…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责大模型应用和系统整体架构设计与演进，打造具备弹性调度能力、服务稳定、低延迟响应的全链路应用和系统；
2、主导平台的 DevInfra 能力建设，覆盖代码提交、CI/CD、灰度发布、可观测性、异常诊断与系统治理等关键模块，提升研发交付效率；
3、优化业务、平台、应用的架构设计，持续提升平台能力与技术领先性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

分布式系统+

微服务+

高可用+

系统设计+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-云网络系统研究工程师（AI方向）-杭州

社招3年以上云智能集团

1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计，覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈，提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术，系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境，设计并落地面向 AI 流量的多路径传输优化机制，实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点，完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发，构建可快速迭代的原型系统，验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造，推动方案产品化落地，并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略，从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划，识别热点与瓶颈，落地针对性优化措施，保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型，设计并研发超大规模网络分析与智能运维系统，提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景，如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势，并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享，增强团队和个人在业界的技术影响力。

更新于 2025-12-24杭州

软件架构师

社招8-15年SOFTWARE

一、软件技术规划专家 — OS方向主导智能手机操作系统（OS）的技术规划与架构演进，构建高性能、安全可靠、体验领先的OS技术底座，并推动跨终端OS生态协同，支撑公司终端产品全球竞争力提升： 1、OS技术战略规划：洞察全球操作系统技术趋势（Android/AOSP/Linux/RTOS/微内核等），制定3-5年OS技术路线图，定义关键子系统核心技术竞争力（如内核调度、安全架构、跨端互联、分布式多媒体、图形、AI等子系统） 2、OS-软硬协同规划：联合芯片团队，主导OS对新型硬件能力（CPU/NPU/GPU）的底层支持与性能调优规划；设计硬件抽象层（HAL）标准化方案，降低多芯片平台、多OS形态适配与维护成本 3、跨端OS技术整合：设计手机与IoT/车机/XR设备的OS协同架构（分布式软总线、多端任务迁移）；主导跨端安全互联协议、数据互通框架、跨端AI等技术等标准化 4、OS逆向工程分析：主导OS核心架构及各子系统逆向工程分析（iOS、Android、RTOS、Linux等），详细拆解关键OS子系统能力，为OS技术规划提供技术竞争参考二、软件技术规划与合作专家 — 芯片方向负责智能手机芯片平台的前沿技术规划、软件生态合作及跨部门技术协同，推动芯片与系统软件的深度整合，打造高性能、低功耗、差异化的终端产品竞争力： 1、技术趋势洞察与规划：跟踪全球芯片技术（SoC/AP/ISP/NPU等）发展趋势，分析其对智能手机软件架构的影响；主导芯片平台的软件技术路线图制定，定义关键能力（如AI算力调度、能效优化、异构计算等） 2、芯片-软件协同设计：深度参与芯片选型与定义，确保硬件特性与系统层（驱动/Kernel/框架）的协同优化；推动芯片厂商（如高通、联发科、自研芯片团队）与内部软件团队的联合技术攻关 3、生态合作与资源整合：建立并维护与芯片厂商、IP供应商的战略合作关系，主导技术合作项目落地；整合芯片层能力（如AI引擎、安全模块、图像处理单元）至上层应用生态 4、技术竞争力构建：主导芯片平台性能、能效、稳定性等核心指标的软件优化方案，形成技术壁垒；探索创新场景（如端侧大模型、实时渲染、传感器融合）的芯片-软件协同方案 5、跨部门协同与赋能：联动硬件研发、系统开发、产品规划团队，确保技术规划与产品需求对齐；输出芯片技术白皮书、开发者指南，赋能内部团队及生态合作伙伴

更新于 2025-09-10深圳

蚂蚁集团-高性能存储研发专家-上海/杭州

社招5年以上技术-基础平台

岗位目标：深度参与下一代超大规模分布式存储系统的架构设计与实现。利用 Kernel Bypass、软硬协同及自研存储引擎等尖端技术，解决千亿级元数据挑战，构建微秒级低延迟、高吞吐的存储内核，支撑大模型训练及高性能计算场景。核心职责： 1. 存储内核与引擎开发：负责 Blob 存储内核、持久化引擎及高性能元数据服务的设计与开发；针对 SSD/HDD 特性优化存储格式，实现小文件聚合、EC 编码及高效压缩。 2. 软硬协同与性能加速：利用 RDMA、SPDK、DPDK 等技术栈重构存储 I/O 链路，实现全链路零拷贝（Zero-copy）与微秒级端到端延迟。 3. 全栈性能调优：针对 AI 训练等高并发场景，进行 CPU 亲和性、NUMA 架构、网卡 Offload 及存储协议栈的深度调优，消除系统瓶颈。 4. 前沿技术落地：探索并落地高性能用户态文件系统、NVMe-oF 及计算存储一体化方案，确保存储系统在吞吐量与存储密度上的持续领先。

更新于 2026-02-05上海|杭州

通义实验室 - 面向生成式AI的大规模在线服务系统全栈性能优化- 阿里星

校招通义2026届秋

我们正在寻找业界顶尖的系统专家，加入我们的AI基础架构团队，共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力（大模型、AI Agent、多模态等）转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进，从顶层应用到底层硬件，全面提升AI服务的竞争力。具体职责包括（若你对以下一个或者多个方向感兴趣均欢迎投递）： 1. 大规模模型服务平台与智能调度系统设计： (1)负责承载大规模在线模型服务（Serving）平台的核心架构设计与演进，通过对底层推理引擎（如PAI平台提供）的深度适配与协同优化，实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载（长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级）的上层智能请求调度与资源管理系统，通过与推理引擎的深度协同，动态调整调度策略，保障服务质量（SLA）并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化： (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化，针对张量并行、流水线并行等场景，优化跨节点通信（InfiniBand/RoCE, NVLink），降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性，负责从服务层面对底层计算、编译优化（由PAI等引擎团队提供）进行性能评测、分析与反馈，驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化： (1)深入AI Agent、检索增强生成（RAG）、多模态理解等复杂应用场景，设计并优化其专用的高效运行时（Runtime），解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索（Vector Search）与图计算（Graph Computing）引擎的服务化与集成，优化其在RAG和复杂推理场景下的数据访问与计算效率，实现数据层与模型层的无缝高效协同。

更新于 2025-08-07北京|杭州|上海