阿里云阿里云智能-分布式研发工程师-资源调度
任职要求
1. 具备扎实的计算机理论基础, 对数据结构及算法有较强的功底 2. 精通Golang、C++、Java任一语言编程,具备优秀的系统Debug/Profiling能力和经验 3. 熟悉Yarn/Mesos/Hadoop/HBase/Flink/Spark/S…
工作职责
1. 负责分布式资源/作业调度相关功能需求分析、设计及实现 2. 设计和实现大规模、高效、智能的基于Kubernetes平台的新一代调度体系 2. 负责功能的设计、开发、测试及线上环境的运行分析和问题定位 3. 建设智能调度,结合动态运行数据、深度学习、强化学习等技术打造下一代智能化、可视化的调度技术 4. 支持计算类、大数据类、机器学习/深度学习、在线等各种类型业务的混部资源调度,设计和研发高并发、低延迟、大规模的调度技术 5. 和开源社区以及业界同行互动,双向反馈进步 6.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验
1、负责复杂项目系统的技术方案设计、架构审定、复杂需求梳理、核心功能开发,将复杂业务需求落地实施; 2、充分参与系统技术规划,对复杂系统进行性能优化、线上故障排查和解决、安全加固等; 3、培养团队低职级成员,组织技术分享,促进团队成员进步; 4、探索供需调度在客服领域的应用; 5、驱动技术团队与产品团队密切合作,并参与产品层面的架构规划; 6、在复杂多样化的业务场景中抽丝剥茧,提炼抽象,不断优化重构既有服务架构,美团未来的智能调度架构,将有你的设计理念;

面向阿里集团提供高稳定、低成本、易使用的容器服务,通过业务弹性编排、资源额度弹性管理、多等级资源调度和混合部署、运筹优化的全局资源规整和排布、异常检测和诊断自愈等,支持业务便捷、高效使用集团全局智算和通算资源,并保障不同等级不同场景的业务服务slo。 1. 负责智算和通算资源的统一管理和统一调度等集群管理、基础调度、容器与混部等相关技术和系统研发; 2. 负责交易导购类、搜推广引擎类、大模型AI类、大数据类、数据库类和中间件类等业务的应用编排和弹性调度托管; 3. 负责基础资源监控、基础资源数据、异常检测和诊断自愈、研发质量和稳定性等DevOps&AIOPS相关基础平台研发; 4. 负责计算、存储、网络、机房和业务布局等云原生基础设施规划演进,持续降低基础设施成本,并屏蔽底层基础设施差异。
-建设面向AI场景的检索引擎(多维分析、文本检索、向量检索、多模检索等) -负责计算引擎:包括但不限于SQL解析规划器,查询优化器,分布式执行研发和优化 -负责存储引擎:包括单机执行引擎,资源调度,列式存储、存算分离等模块的研发和优化 -负责各集群服务稳定性保障和客户支持
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 1、参与设计并实现高可用、可扩展、分布式大模型机器学习平台,支撑国际化短视频大模型研发与高效迭代; 2、探索业界前沿的大模型工程研发(LLMOps)相关技术,覆盖数据、训练、推理服务、评测、自动化编排、Prompt工程、资源调度等方向; 3、构建高性能大模型推理服务架构,降低推理成本,保障服务高可用运行。