夸克智能信息-调度系统专家 -AI方向-杭州
任职要求
1、熟练掌握 Linux 环境下的 Go/C++/Python 等1至2种以上语言 2、熟悉 Kubernetes 架构和生态,或熟悉 Docker/Containerd 等容器技术,有丰富的云原生开发经验 3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护 4、优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,底层系统问题分析经验和优化能力 5、良好的学习、沟通能力和自驱力,强烈的工作责任心,能够快速的响应和行动 6、良好的工作文档习惯,按要求撰写工作流程及技术文档 加分项: 1、深入了解 Kubernetes、Docker/Containerd 等技术原理和源码,在社区有过相关代码贡献 2、有大模型资源调度/服务编排的落地经验,或熟悉 GPU系统 / 体系结构
工作职责
1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题。 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力。 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率。 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。
1、承担阿里巴巴UC浏览器内新闻和视频推荐业务、智能信息服务类创新业务架构研发; 2、深度参与UC、夸克等推荐业务,满足业务对于推荐核心引擎(召回、特征计算、模型预测、用户理解、正排服务等)功能需求,助力业务效果的提升。 3、基于大模型构建新一代的推荐引擎,并应用到夸克、UC等业务场景中。 4、参与到模型推理服务性能优化和不同GPU硬件适配。 5、 从业务中了解需求并抽象和设计新的平台,或者优化已有系统,以提升效率并降低成本;
1、主导大模型在线推理系统的性能攻坚,构建多节点多GPU的分布式推理架构,实现智能请求调度算法与异构硬件的极致性能调优; 2、研究低bit量化、稀疏化attention等解码加速技术,在保障精度前提下显著降低计算资源消耗; 3、设计高并发场景下的负载均衡方案,构建支持动态扩展的弹性计算架构,优化推理引擎运行时环境,实现毫秒级延迟与高QPS吞吐能力。
- 主导电商场景下推荐系统的整体架构设计和核心模块开发,构建高效、智能的推荐体系,助力业务目标达成。 - 负责电商场景下流量分发体系的搭建与优化,基于大数据处理技术,提升推荐算法的准确性和实时性。
负责基于Linux的自动驾驶控制器功能安全架构设计,包括内核态和用户态安全机制,满足ISO 26262 ASIL-B及以上等级要求。 主导Linux内核功能安全改造,包括模块裁剪、异常检测、内存隔离、调度优化、软硬件看门狗实现,并推进符合MISRA、ISO PAS 8926的开发规范。 设计并实现应用态与中间件层的安全机制,例如用户态隔离、执行流检测、安全持久性存储、通信完整性保护等。 负责单元测试、集成测试、安全验证、代码静态检查等工作,推动功能安全证据链建设,支持Exida、DEKRA等第三方功能安全认证。 作为车载Linux安全机制领域的专家,提供跨部门(系统、软件、安全认证、测试)技术支持和培训,指导团队进行安全开发。