vivo端云芯算架构工程师/专家
任职要求
• 硕士及以上学历 • 工作年限,五年以上 • 熟悉云计算平台(如AWS、Azure、阿里云、Google Cloud等)及其服务(如EC2、S3、Lambda等)。 • 精通Python、C++等编程语言,精通Torch,tensorflow等深度学习框架,具备扎实的算法实现和优化能力。 • 熟悉分布式计算框架(如Spark、Hadoop)和容器化技术(如Docker、Kubernetes) • A/H系列节点部署经验,NVSwitch/NCCL搭建经验; • 多节点Kubernetes GPU调度策略配置经验; • 掌握Linux驱动管理、CUDA兼容性矩阵管理; • 了解机器学习、深度学习、图像处理算法算法,有相关项目经验者优先 • 具备良好的沟通与团队协作能力。 • 具备较强的学习与创新能力,能快速掌握新技术。 优先条件: • 有芯片设计、算法优化或芯算一体项目经验者优先; • 有LLM推理框架开发经验(如vLLM/lmdeploy); • 有千亿参数MoE模型训练框架部署经验; • 具备国产显卡(昇腾/摩尔线程)部署经验。
工作职责
• 负责端云算法架构设计及落地: - 负责设计和优化端云结合的算法框架,保证系统的高性能、可扩展性和可靠性 - 结合云计算资源特性,设计支持大规模数据处理和高并发计算的算法架构 - 开发和优化适用于端云结合部署的算法,包括机器学习、深度学习、数据分析等算法 - 监控算法在云端运行的性能,进行调优以降低计算成本和延迟 - 跟踪云端算法架构和云计算领域的最新技术,推动技术创新。 • 负责 芯算算法架构设计及落地: - 负责芯片架构与算法的协同设计和优化,确保硬件设计与算法需求高度匹配 - 针对特定应用场景,优化算法以适应芯片硬件特性 - 负责流片过程中的效果验证 - 负责芯片与算法的系统集成,确保功能与性能达标 - 跟踪芯算一体领域的前沿技术,推动技术创新
1、负责端云算法架构设计及落地: - 负责设计和优化端云结合的算法框架,保证系统的高性能、可扩展性和可靠性; - 结合云计算资源特性,设计支持大规模数据处理和高并发计算的算法架构; - 开发和优化适用于端云结合部署的算法,包括机器学习、深度学习、数据分析等算法; - 监控算法在云端运行的性能,进行调优以降低计算成本和延迟; - 跟踪云端算法架构和云计算领域的最新技术,推动技术创新。 2、负责 芯算算法架构设计及落地: - 负责芯片架构与算法的协同设计和优化,确保硬件设计与算法需求高度匹配; - 针对特定应用场景,优化算法以适应芯片硬件特性; - 负责流片过程中的效果验证; - 负责芯片与算法的系统集成,确保功能与性能达标; - 跟踪芯算一体领域的前沿技术,推动技术创新。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
1.负责云真机机房及调度系统的整体架构设计,包括硬件资源管理、任务调度算法、高可用性方案等,支持2000+台设备跨三地机房的稳定运行。 2.设计异地多机房协同方案,实现设备资源统一纳管、动态调度及负载均衡,确保低延迟、高吞吐的远程设备访问服务。 3.设计全链路监控告警系统,覆盖设备状态、网络延迟、任务队列等核心指标,确保SLA达标。