阿里云阿里云智能-云网络系统研究工程师(AI方向)-杭州
任职要求
1. 教育与背景 ● 计算机科学、计算机工程、电子工程、人工智能、网络工程等相关专业; ● 有 3 年及以上相关领域全职研发或科研经验(含博士期间产业实习经历者可视情况折算); ● 在网络系统、分布式系统、AI infra 等方向有扎实理论基础和实践经历。 2. 技术能力 满足下列多项条件者优先,资深/专家级别将根据深度与广度综合评估: ● 深入理解计算机网络原理与协议栈,对数据中心网络、云网络架构有体系化认知; ● 熟悉 RDMA 相关协议(RoCE 等)以及多路径传输相关技术(如 MPTCP、QUIC、多路径调度策略等),有实战优化经验者优先; ● 理解现代计算机体系结构及其对网络和高性能计算的影响,如 NUMA、PCIe 拓扑、GPU/加速卡互联等; ● 对高性能网络和 AI Infra 前沿方向有实践经验之一或多项: ○ AI 训练/推理集群网络优化、计算–通信 overlap ○ GPU 集群拓扑与流量工程 ○ 量化感知推理、模型并行与通信优化 ● 有高性能网络内核/用户态协议栈、可编程交换机(P4)、自研 NIC/SmartNIC 等相关经验者加分; ● 对云原生基础…
工作职责
1. 面向 AI 业务的网络架构设计与演进
○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。
○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。
2. 高性能多路径传输与 RDMA 方向创新
○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。
○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。
3. 网络系统研发与产品化落地
○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。
○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。
○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。
4. 稳定性与性能优化
○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。
○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。
5. 数智一体的网络分析与智能运维
○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。
○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。
6. 学术前沿跟踪与技术影响力建设
○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。
○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。职位概述: 阿里云飞天实验室正在寻找一位充满激情的大模型应用开发者,加入我们的创新团队,共同构建和优化阿里云百炼大模型平台的核心应用组件, 开发以核心技术驱动的前沿应用的构建。我们专注于前沿的大模型能力,基于最新的模型能力,构建大模型应用,支持阿里云toB客户, 打造海内外和开源社区影响力。 团队介绍: 我们是一支致力于AGI,构建前沿的大模型应用范式的团队。 岗位描述: 1. 负责大规模语言基础模型,多模态模型,文生图、视频生成模型等AI能力的产品化落地工作。 2. 支持百炼大模型平台上应用组件、场景化应用的开发和落地。 3. 主要负责百炼大模型平台应用广场、MCP广场能生态能力建设。 加入我们,你将获得: 1. 与行业顶尖人才共事的机会。 2. 参与前沿技术研究和产品开发的平台。 3. 开放和包容的工作环境如果你渴望在一个充满活力和创新的环境中工作,并且对人工智能技术充满热情,我们期待你的加入!
1、售前工作:重点负责大规模智算中心项目的需求分析、整体规划、方案设计、招投标等工作,协同内部部门与外部生态伙伴等资源,在方案规划、售前、交付等关键里程碑节点联合攻坚,保障项目成功; 2、解决方案:作为智算领域的技术专家,与客户紧密合作,深入了解其业务需求和技术挑战,提供客户从智算算力、数据、大模型等内容的整体规划到实施落地全过程技术交流及解决方案,并在落地过程中提供对内外部团队提供必要的技术指导,确保方案可落地、有竞争力。协助客户方案比选,通过POC演示和功能、性能测试验证技术优势;; 3、行业识别:负责支持市场洞察、竞争分析、行业打法策略分析与制定,支撑智算行业机会点识别、行业整体业务规划和策略落地; 4、外部影响:负责开展面向政府、实验室、运营商、算力合作单位、生态合作伙伴的培训与市场宣贯活动。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责机器学习系统存储相关组件的设计和开发,服务于各方向场景(LLM/CV/Speech等)的数据加载模块和模型状态持久化,从而优化任务IO性能,提升有效训练时间; 2、负责设计和实现面向机器学习场景的文件系统,使用内存、SSD、HDD以及云端对象存储等介质进行数据的持久化存储和管理,均衡的优化存储性能与成本; 3、负责Kubernetes场景下各类存储系统的接入、管理、治理、监控; 4、负责多机房、多地域、多云场景的在任务数据联合调度,优化跨区域数据传输,实现负载的合理化分布。