腾讯腾讯云-高性能网络后台研发工程师(上海/深圳)
任职要求
1.本科及以上学历,人工智能、计算机、数学等相关专业; 2.5年以上 AI 研发或项目经验,有云计算领域相关经验优先; 3.具备TensorRT,Triton等推理框架和服务部署软件的优化和实践能力; 4.熟悉深度学习框架(Pytorch, Tensorflow,等),熟悉各组件和类库,常见AI模型; 5.熟悉行业内人工智能平台、机器学习实现方案,熟悉主流云计算厂商 AI 产品特点,有 AI 研发经验者优先; 6.对GPU,分布式计算,RDMA,MPI,GPU Direct 等技术有比较深入的理解和实际部署优化经验; 7.精通C++、Python等开发语言,熟练掌握Linux软件开发技术; 8.有一定的管理能力,具备丰富的产品规划和设计经验,对人工智能技术及行业有前瞻性战略思考; 9.清晰的逻辑分析和表达能力,乐观积极,具有较强的责任心和执行力; 10.通过腾讯云技术认证或同等资格认证的优先录取。
工作职责
1.负责计算集群的高性能RDMA网络系统软件开发和建设工作,构建业界领先的集群高性能RDMA网络性能和稳定性; 2.负责业界大模型训练的主流加速框架(如DeepSpeed、Megatron-LM)与云平台底层技术特点和优势结合,通过自研高性能RDMA网络技术进行持续优化; 3.跟踪业界最新AI基础设施和互联网络通信技术建设情况,包括scale up&out网络,持续打造自研产品竞争力。
1.负责腾讯云底层网络数据转发(Virtual Switch)相关的开发工作; 2.排查、定位并解决网络相关的问题; 3.持续优化产品,提高可靠性与性能; 4.改善工作流程,提高开发、测试和运维效率。
阿里云持续推进AI 技术深化战略布局, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 1、参与基础软件的设计、开发和维护,如分布式文件系统、缓存系统、Key/Value存储系统、数据库、Linux操作系统和Java优化等; 2、参与高性能分布式服务端程序的系统设计,为阿里云的产品提供强有力的后台支持,在海量的网络访问和数据处理中,设计并设施最强大的解决方案; 3、参与搜索引擎各个功能模块的设计和实现,构建高可靠性、高可用性、高可扩展性的体系结构,满足日趋复杂的业务需求; 4、参与超大规模的云计算底层核心技术的设计和实现,为阿里云内部以及百万级云计算用户提供高性能高质量高弹性网络,计算及存储能力; 5、参与产品的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作; 6、参与海量数据处理和开发,通过sql、pl/sql、java进行etl程序开发,满足商业上对数据的开发需求; 7、参与项目为用户提供丰富而有价值的桌面或无线软件产品。
阿里云持续推进AI 技术深化战略布局, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 如果你对基础技术感兴趣,热衷于高性能分布式技术,如果你喜欢研究搜索技术,对云计算等相关产品技术感兴趣,那就加入我们吧! 具体职责包括但不限于: 1、参与基础软件的设计、开发和维护,如分布式文件系统、缓存系统、Key/Value存储系统、数据库、Linux操作系统等; 2、参与世界级规模的分布式服务端程序的系统设计,为阿里巴巴的产品提供强有力的后台支持,在海量的网络访问和数据处理中,设计并设施最强大的解决方案; 3、参与搜索引擎各个功能模块的设计和实现,构建高可靠性、高可用性、高可扩展性的体系结构,满足日趋复杂的业务需求; 4、参与产品的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作; 5、参与项目为用户提供丰富而有价值的桌面或无线软件产品。