快手大模型后端开发工程师-【可灵AI专项】
任职要求
1、熟练掌握 C++、Python语言,具备良好的coding和调试能力; 2、熟悉主流大模型推理框架,如sglang、vllm等; 3、熟悉推理服务框架,有大模型分布式部署经验优先; 4、具备良好的团队合作…
工作职责
1、配合算法同学,推动深度学习相关算法的落地,打造高吞吐、低延时的推理系统; 2、优化大模型推理服务性能,提升吞吐并控制成本; 3、优化大模型推理服务化框架,提升框架易用性和可调试性。
你将与一群“可能是行业内最顶尖的”Java后端工程师一起,共同搭建业界领先的直播平台。在这里你将: 1、参与快手直播营收系统的研发工作,深入发掘和分析业务需求,撰写技术方案和系统设计,通过敏捷开发支持产品需求快速迭代,支撑业务规模增长; 2、接受高并发、海量资金以及数据的挑战,分析和发现系统的优化点,负责推动系统易用、扩展、可用性、资金安全性、性能等提升; 3、参与直播营收业务与AI技术的深度融合,并结合业务具体场景给出工业化落地方案,提高直播流水; 4、探索AI领域最新的技术和趋势,为团队引入创新的技术、创新的解决方案,用创新的思路解决问题。
通义团队聚焦AIGC、大模型基础研究和行业应用探索,领域覆盖视觉、语音、自然语言处理、机器学习等多个领域。在这里你可以接触业界领先的AI产品和技术,深度参与Modelscope开源生态平台、DashScop灵积模型服务平台、通义AI产品的建设,探索AI+不同场景的全新交互形式,打造具有科技感、全新生产力的科技型产品。 期待您的加入,AI浪头一起弄潮,感受不一样的未来! 1. 负责AI大模型相关系统设计、开发和上线等整个项目周期内的工作。 2. 负责系统技术规划和技术前瞻布局,解决系统疑难问题。 3. 构建高可靠性、高可用性、高可扩展性的体系结构,满足日趋复杂的业务需求。

你将参与构建和演进公司 MaaS 推理基础设施,支撑多模态大模型在多集群环境下的高效、稳定与低成本运行,具体包括: 1. 参与或主导 推理网关与核心服务 的设计与开发,支持多模态请求处理、流式推理、Micro-batch 调度等能力。 2. 参与 跨集群服务发现、健康检查与流量治理,提升推理系统的可用性与弹性。 3. 构建和优化 推理系统的可观测性能力,包括日志、指标、Tracing 以及基础成本与性能分析。 4. 针对 低延迟、高吞吐、高 GPU 利用率 等目标,参与系统性能优化与问题排查。 与算法、平台、硬件等团队协作,持续优化推理系统在性能、成本与稳定性上的整体表现。 5. 根据经验级别,逐步或直接承担 技术方案设计、系统演进决策、复盘与优化推动 等职责。 我们会根据候选人能力与经验,在具体职责深度和影响范围上进行匹配。