logo of aliyun

阿里云阿里云智能-机器学习平台研发专家-杭州/北京

社招全职3年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 计算机及相关专业背景,扎实的计算机基础知识,3年以上GolangJavaPythonC++一种或多种语言的开发经验;
2. 具有3年以上分布式系统或后端服务系统相关工作经验,具备复杂系统软件的设计和调试能力;
3. 熟悉容器(如Docker/Containerd)、Kubernetes微服务架构、数据库、PrometheusElasticSearch等至少一项相关技术。熟悉异构设备,包括但是不限于gpu;
4. 分布式计算框架:优先考虑熟悉TensorFlow、PyTorchRay、MPI、RaySpark等分布式计算框架的候选人;
5. 在机器学习深度学习,以及搜索、广告、推荐、大模型、AIGC等领域有实际经验者优先;
6. 具备良好的学习和自我驱动能力,认可并实践DevOps、Engineering Excellence、测试驱动开发(TDD)、持续集成和持续部署(CICD)等软件开发理念,对云原生技术和人工智能领域充满热情。

工作职责


1. 研发需求洞察与设计:负责阿里云人工智能平台PAI的需求讨论、架构设计、软件开发、功能测试及部署上线,确保项目从初始阶段到交付的全流程高质量执行;
2. 系统优化:从功能、性能、可用性、易用性等多个维度,结合产品设计、产品设计和解决方案架构及客户反馈,进行系统各模块的持续分析和优化,降低用户使用门槛,提升用户满意度和忠诚度;
3. 技术支持与维护:负责线上环境的运行监控与问题定位,与SRE和售后团队紧密协作,及时为客户提供技术支持,保障平台的稳定运行;
4. 前沿技术开发:紧贴大模型及AIGC等业界趋势,提炼并反馈有价值的用户需求,持续增强和改进平台的功能,保持技术的先进性和市场竞争力。
包括英文材料
Go+
Python+
C+++
分布式系统+
OpenAPI+
微服务+
Kubernetes+
Prometheus+
Java+
Docker+
ElasticSearch+
TensorFlow+
Ray+
Spark+
机器学习+
深度学习+
大模型+
DevOps+
相关职位

logo of aliyun
社招5年以上技术类-开发

1.参与模型服务平台云原生管控系统,资源管理调度系统,服务引擎,以及平台产品化相关的开发 2.参与模型服务serverless化的建设,服务启动调度性能优化,计量计费等相关的开发 3.大规模GPU集群稳定性建设,可观测建设,安全性建设,资源调度超卖等方面的建设 4.根据用户反馈快速定位线上问题,将用户需求沉淀为平台功能,增强平台能力

更新于 2025-06-16
logo of aliyun
社招3年以上云智能集团

1. MLOps平台开发打造一站式大模型开发平台,负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化,以及vLLM/sglang/自研推理引擎的优化,提供有竞争力的推理性能 ● 负责各种MLOps工具链开发,如AI资产管理、实验管理、血缘跟踪、评测对比等,帮助用户串联AI开发全流程,提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发,为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台,帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式,建设全链路的可观测、可调试和监控能力,帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求,构建全方位的安全防护能力,包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作,建设阿里云agent工具生态

更新于 2025-09-10
logo of antgroup
社招技术类-算法

1、研发面向云计算底座海量数据的大模型,包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发; 2、参与大模型应用研发全流程的工作,包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测;技术创新如专利、论文的撰写;外部技术影响力交流等; 3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地;

更新于 2025-07-14
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14