logo of aliyun

阿里云阿里云智能-技术服务专家(AI全栈)-金融行业-北京/上海/广州/深圳/成都/西安

社招全职3年以上云智能集团地点:西安 | 成都 | 北京 | 深圳 | 广州 | 上海状态:招聘

任职要求


1. 计算机通信或相关专业本科及以上学历,有XPU硬件适配和大模型底层软硬件工程落地交付工作经验;
2. 熟悉PyTorchTensorFlow机器学习框架,了解张量、梯度等的基本数据结构和前后向传播原理;
3. 熟悉大模型推理框架vLLMSGLang等业界主流推理引擎。
4. 熟悉XPU虚拟化和RDMA网络,了解虚拟化和资源分配与调度工作原理,了解RDMA主…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责大模型运行所需的XPU相关软硬件平台的适配和优化工作,解决适配和优化过程中的兼容性、系统性能、稳定性、高可用等方面的技术问题;
2. 为客户提供XPU相关软硬件平台交付方案设计和部署落地服务,聚焦算力资源评估、底层软件选型、训推环境搭建、训推性能优化、大模型评测等领域为客户提供最佳实践和落地能力;
3. 为客户提供XPU算力资源池相关的高性能网络技术选型、规划设计、交付部署和性能优化服务,解决XPU、整机、POD接入和组网过程中的控制与转发技术问题;
4. 为客户提供训练数据集构建、数据合成、模型后训练、模型效果评测等服务。
包括英文材料
学历+
大模型+
PyTorch+
TensorFlow+
机器学习+
数据结构+
vLLM+
SGLang+
推理引擎+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

阿里云专有云是面向政企行业客户的全栈云平台,为政企客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云AI安全技术方向的架构规划及研发工作,构建全面的AI安全防护体系,跟踪AI安全前沿技术,将研究成果转化为工程落地,插入链接提升技术竞争力,满足专有云客户的AI安全需求。 1、主导专有云AI安全架构设计 ● 设计并构建覆盖AI全生命周期的安全防护体系,包括数据安全、模型安全、推理安全等; ● 建立AI模型隐私保护机制,支持联邦学习、差分隐私、同态加密等隐私计算技术; ● 设计AI安全治理框架,确保AI系统的可解释性、公平性和可靠性; 2、主导AI安全技术研发和产品化落地: ● 研发AI对抗攻击检测与防护技术,包括对抗样本检测、模型后门检测、投毒攻击防护等; ● 开发AI数据安全技术,包括敏感数据识别、数据脱敏、数据水印等技术; ● 构建AI安全监控平台,实现AI系统运行时的实时安全监测和威胁预警; ● 协同AI平台团队,将安全能力深度集成到AI训练、推理、服务等各个环节;

更新于 2026-02-12北京|深圳|杭州
logo of aliyun
社招5年以上技术类-开发

阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。

更新于 2025-05-22成都|北京|深圳
logo of aliyun
社招3年以上技术类-开发

阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云平台资源管理与运营方向的规划、设计及产品研发。核心职责包括: 1、 贴近专有云政企客户的场景与需求研发专有云平台的资源管理与运营能力等; 2、在保证稳定、安全的前提下,通过AI能力赋能运营,提升用户的管云与用云效率; 3、紧跟行业发展趋势与动态,参与相关产品开发,致力于打造专有云平台管理与运营的先进性能力。

更新于 2025-07-04北京|杭州
logo of bytedance
社招A174558

团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。

更新于 2024-07-05北京