夸克智能信息-AI调度系统专家-杭州
任职要求
1、熟练掌握 Linux 环境下的 Go/C++/Python 等1至2种以上语言 2、熟悉 Kubernetes 架构和生态,或熟悉 Docker/Containerd 等容器技术,有丰富的云原生开发经验 3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护 4、优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,底层系统问题…
工作职责
1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题。 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力。 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率。 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。
我们正在寻找一位充满激情、经验丰富的技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的核心功能设计、开发与持续优化。保障系统的高可用性、可扩展性和安全性。 2.跟踪和了解 Serverless,AI 领域的最新进展,根据业务需要提供最新的技术支持和建议。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。
1. 主导面向ToB场景的Android端多模态交互系统架构设计与核心模块开发,包括语音采集/播放、摄像头控制、传感器融合、UI响应、状态管理等。 2. 与AI算法团队紧密协作,高效集成语音识别(ASR)、语音合成(TTS)、视觉理解(CV)、大语言模型(LLM)等端侧推理模块,优化模型加载、推理调度与资源协同策略。 3. 设计并实现低延迟、高并发的双工对话通道,支持实时打断、动态判停、上下文感知等高级交互能力在端侧的稳定运行。 4. 构建可扩展、可配置的SDK或中间件,支持多行业客户(如车企、手机厂商、IoT设备商)的快速接入与定制化需求。 5. 参与端云协同架构设计,在保障本地交互流畅性的同时,确保数据传输、存储与处理符合GDPR、CCPA、中国《个人信息保护法》等国内外隐私合规要求。 6. 深度集成系统级安全能力,包括应用权限管控、敏感操作审计、安全启动验证、密钥管理及安全OTA升级机制,提升端侧整体安全水位。
光网络运营团队负责阿里巴巴数据中心内光互连的规划、建设、测试和运营,致力于建设安全可靠,技术先进、可灵活调度、高效运营、大容量的信息传输通道,以支撑阿里云智能各项业务的发展。 • 负责全球全球骨干网、城域网、数据中心网络光网络巡检维护以及问题定位,并快速解决网络风险及故障; • 全球网络运营风险管理,负责网络生命周期的风险识别、规避控制和消除,涉及架构引入测试、验收、风险防范,确保网络服务满足稳定性需求; • 负责网络设备/光模块产品引入、质量控制、线上运营、链路故障维修支持和能力建设。 • 研发高可用的光互联网络规划、建设和运营平台; • 负责网络运营自动化脚本编写,推进网络的自动化运维能力; • 通过数据分析和研究,提前识别网络架构风险、设备软硬件风险、设备老化风险,预测故障; • 持续推动网络架构模型优化。
通义实验室工程团队致力于打造面向公众与企业的大规模、高性能在线 AI 服务平台,支撑了通义千问、通义万相及多种开源先进模型的在线服务,并推动 AI Agents、多模态应用、MCP 等前沿技术的产品化落地。团队持续攻克异构 GPU 资源调度、多模型多地域部署、多模态任务统一推理、多样化服务等级保障(SLO),以及模型推理全链路工程化的关键挑战,不断提升资源效能和系统的性能、稳定性。 1、结合LLM技术,设计和优化RAG全链路的基础架构,提升系统的吞吐能力和响应速度; 2、构建高性能,可扩展的分布式文件处理和索引构建系统,承载海量文档的知识库的索引和检索需求; 3、规划和优化检索集群,通过合理的分片,资源分配等策略降低延迟提高吞吐,针对业务场景进行服务优化; 4、建立完善的系统监控,日志分析和trace平台,能快速定位和解决系统问题。