阿里云阿里云智能-智能数据系统研发专家-北京/杭州/上海
社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘
任职要求
• 5年以上IT、互联网、云计算开发、数仓、数据系统相关工作经验; • 精通Java语言和Spring等基础框架,有使用Java语言进行后端系统开发的经验,熟悉Python等脚本语言; • 熟练掌握分布式系统设计的基本原理和最佳实践,熟悉RPC框架、缓存、消息系统等的技术原理并有相关的使用经验; • 精通SQL并熟练掌握MaxCompute(ODPS), Flink, Spark, Hive等大数据组件的原理和使用,有大数据链路性能优化经验; • 在高并发架…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.技术方案设计 • 参与智能数据系统的高性能架构升级和优化工作,解决数据密集型系统的稳定性、性能、安全等目标设计相应的技术方案,并明确方案目标、范围和交付成果; • 参与智能数据系统的数据质量定义和优化工作,基于业务定义数据质量标准,并设计相应的技术方案提升或者保持数据质量SLA水平; • 参与面向多云多单元体系下的智能数据系统的交付部署方案设计。 2.技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责架构性能优化及系统调优,解决系统服务能力提升及优化; • 负责核心功能的架构与代码模板的编写,开发与维护管控系统核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3.安全、稳定、效率和性能优化 • 通过数据分析,稳定性研究和性能测试,持续推动升级和优化智能数据系统架构,实现高可用、高性能的数据密集型系统; • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高数据密集型系统的稳定性和数据查询分析效率。 4.技术预研 • 跟踪和了解国内外云计算技术、大数据技术、AI Agent技术的发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5.技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Spring+
https://liaoxuefeng.com/books/java/spring/index.html
Spring是一个支持快速开发Java EE应用程序的框架。它提供了一系列底层容器和基础设施,并可以和大量常用的开源框架无缝集成,可以说是开发Java EE应用程序的必备。
https://spring.io/guides/gs/rest-service
https://spring.io/quickstart
Level up your Java code and explore what Spring can do for you.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
脚本+
[英文] Scripting language
https://en.wikipedia.org/wiki/Scripting_language
https://zhuanlan.zhihu.com/p/571097954
一个脚本通常是解释执行而非编译。脚本语言通常都有简单、易学、易用的特性,目的就是希望能让程序员快速完成程序的编写工作。
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
RPC+
https://javaguide.cn/distributed-system/rpc/rpc-intro.html
为什么要 RPC ? 因为,两个不同的服务器上的服务提供的方法不在一个内存空间,所以,需要通过网络编程才能传递方法调用所需要的参数。并且,方法调用的结果也需要通过网络编程来接收。
https://www.youtube.com/watch?v=S2osKiqQG9s
This video is part of an 8-lecture series on distributed systems, given as part of the undergraduate computer science course at the University of Cambridge.
缓存+
https://hackernoon.com/the-system-design-cheat-sheet-cache
The cache is a layer that stores a subset of data, typically the most frequently accessed or essential information, in a location quicker to access than its primary storage location.
https://www.youtube.com/watch?v=bP4BeUjNkXc
Caching strategies, Distributed Caching, Eviction Policies, Write-Through Cache and Least Recently Used (LRU) cache are all important terms when it comes to designing an efficient system with a caching layer.
https://www.youtube.com/watch?v=dGAgxozNWFE
还有更多 •••
相关职位
社招3年以上技术-基础平台
1. 对接蚂蚁所有业务线的深度学习任务,包含百灵大模型、搜广推业务等模型的性能优化;探索超大规模训练前言优化技术,涵盖文本和多模态场景。 2. 负责模型端到端性能优化,包含分布式并行策略、算子显存优化、跨机通信、数据预处理等模块优化,探索自动并行优化技术。 3. 负责蚂蚁深度学习智能训练服务的研发。 4. 蚂蚁端到端的在线/离线学习训练系统开发。 5. 参与蚂蚁新一代分布式深度学习编译器开发。 6. 参与蚂蚁开源深度学习系统DLRover开发建设。
更新于 2026-01-13北京|杭州|上海
社招3年以上技术-开发
蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景; 2、建设面向训推一体的显存管理体系和高性能数据存储方案; 3、负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 4、负责整体性能优化与架构升级,持续提升训练/推理性能; 5、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
更新于 2026-01-07北京|杭州|上海
社招5年以上云智能集团
阿里专有云是与公有云同架构同源的云平台,该职位主要涉及阿里云核心自研数据类产品(大数据和数据库)等PaaS产品特性研发 以下工作但不局限于: 1.负责数据类产品核心特性规划和研发,持续构建产品核心竞争力, 2.负责设计数据类产品在专有云平台的架构集成方案,并推进部署架构整体落地 3.负责数据类产品的稳定性治理,依靠技术手段提升系统的稳定性,规避预防险恶性问题
更新于 2025-12-29北京|杭州