logo of vivo

vivo端云芯算架构工程师/专家

社招全职3年以上研发类地点:上海 | 杭州 | 深圳状态:招聘

任职要求


•  硕士及以上学历
•  工作年限,五年以上
•  熟悉云计算平台(如AWSAzure、阿里云、Google Cloud等)及其服务(如EC2、S3、Lambda等)。
•  精通PythonC++等编程语言,精通Torch,tensorflow深度学习框架,具备扎实的算法实现和优化能力。
•  熟悉分布式计算框架(如SparkHadoop)和容器化技术(如DockerKubernetes)
•  A/H系列节点部署经验,NVSwitch/NCCL搭建经验;
•  多节点Kubernetes GPU调度策略配置经验;
•  掌握Linux驱动管理、CUDA兼容性矩阵管理;
•  了解机器学习深度学习图像处理算法算法,有相关项目经验者优先
•   具备良好的沟通与团队协作能力。
•  具备较强的学习与创新能力,能快速掌握新技术。


优先条件:
•  有芯片设计、算法优化或芯算一体项目经验者优先;
•  有LLM推理框架开发经验(如vLLM/lmdeploy);
•  有千亿参数MoE模型训练框架部署经验;
•  具备国产显卡(昇腾/摩尔线程)部署经验。

工作职责


•  负责端云算法架构设计及落地:
	- 负责设计和优化端云结合的算法框架,保证系统的高性能、可扩展性和可靠性
	- 结合云计算资源特性,设计支持大规模数据处理和高并发计算的算法架构
	- 开发和优化适用于端云结合部署的算法,包括机器学习、深度学习、数据分析等算法
	- 监控算法在云端运行的性能,进行调优以降低计算成本和延迟
	- 跟踪云端算法架构和云计算领域的最新技术,推动技术创新。
• 负责 芯算算法架构设计及落地:
	- 负责芯片架构与算法的协同设计和优化,确保硬件设计与算法需求高度匹配
	- 针对特定应用场景,优化算法以适应芯片硬件特性
	- 负责流片过程中的效果验证
	- 负责芯片与算法的系统集成,确保功能与性能达标
	- 跟踪芯算一体领域的前沿技术,推动技术创新
包括英文材料
学历+
AWS+
Azure+
S3+
Python+
C+++
TensorFlow+
深度学习+
算法+
Spark+
Hadoop+
Docker+
Kubernetes+
Linux+
CUDA+
机器学习+
图像处理+
大模型+
vLLM+
LMDeploy+
相关职位

logo of vivo
社招5年以上研发类

1、负责端云算法架构设计及落地: - 负责设计和优化端云结合的算法框架,保证系统的高性能、可扩展性和可靠性; - 结合云计算资源特性,设计支持大规模数据处理和高并发计算的算法架构; - 开发和优化适用于端云结合部署的算法,包括机器学习、深度学习、数据分析等算法; - 监控算法在云端运行的性能,进行调优以降低计算成本和延迟; - 跟踪云端算法架构和云计算领域的最新技术,推动技术创新。 2、负责 芯算算法架构设计及落地: - 负责芯片架构与算法的协同设计和优化,确保硬件设计与算法需求高度匹配; - 针对特定应用场景,优化算法以适应芯片硬件特性; - 负责流片过程中的效果验证; - 负责芯片与算法的系统集成,确保功能与性能达标; - 跟踪芯算一体领域的前沿技术,推动技术创新。

logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14
logo of xiaohongshu
社招5年以上后端开发

1.负责云真机机房及调度系统的整体架构设计,包括硬件资源管理、任务调度算法、高可用性方案等,支持2000+台设备跨三地机房的稳定运行。 2.设计异地多机房协同方案,实现设备资源统一纳管、动态调度及负载均衡,确保低延迟、高吞吐的远程设备访问服务。 3.设计全链路监控告警系统,覆盖设备状态、网络延迟、任务队列等核心指标,确保SLA达标。

logo of tencent
社招2年以上腾讯云技术

1.负责端到端云上云下库存管理,通过优化库存结构、提升库存周转率等关键指标降低运营成本; 2.负责库存状态监控,设置预警机制,及时干预未来补货或者采购计划; 3.与计划等团队协作,确保合理的库存水位目标与需求匹配,保障周转; 4.协同上下游交付团队,加速库存资源的周转; 5.对相关链条的业务流程、IT数字化信息系统进行优化,提升整体库存管理效率。

更新于 2025-06-23