字节跳动IaaS AI Infra研发专家/架构师
任职要求
1、熟悉C++/Python/Go等一种或多种语言,扎实代码功底和实战能力; 2、具备较强的学习能力,能够快速适应…
工作职责
团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。
1.你是网络大牛,热衷于专研云网络技术的奥秘;亦或是有技术热情的潜力派,希望揭开云网络的神秘面纱,那么欢迎加入腾讯云网络测试团队,我们致力于腾讯云IAAS层云网络的质量保障工作,为腾讯云提供强大、稳定的网络通讯服务,支撑云上海量业务; 2.在这里,你可以深入接触相关腾讯云网络产品,类如:私有网络、负载均衡、自定义防火墙、专线网络和NAT网关等; 3.在这里,你还可以深入运用并学习相关Overlay网络技术,类如:Vxlan、GRE、L2/L3网络协议、IPSec、NAT原理、OSPF、BGP和ISIS等; 4.在这里,你还可以深入接触Linux下前沿网络流量转发技术,类如:DPDK、OVS、智能网卡、FPGA和P4; 5.在这里,你还可以深度参与腾讯云DevOps流程建设与相关运营工作,并且可以参与设计优化自动化测试框架进行相关自动化测试工作; 6.加入我们,与业内最优秀的同事并肩,成为网络测试大牛,见证云网络技术的发展,创造业务的一个个里程碑; 7.负责腾讯云产品需求和架构分析,测试设计和测试开发工作,包括IaaS层如计算、网络和虚拟化等,包括但不限于功能测试,性能测试,可靠性测试,高可用测试,混沌测试,稳定性测试,用户体验等系统测试工作; 8.对测试方案进行有效的落地和执行,以确保项目进度和质量,形成自动化测试用例并进一步形成服务化提升效率; 9.架构并实现IaaS层如网络、虚拟化等产品自动化测试平台,提升产品测试和交付能力; 10.不断提升测试过程、方法和技术,构建质量评估标准,优化改进措施,提升产品质量和效率; 11.设计、构建并落地各产品自动化构建、测试和发布的工程基础设施和流程优化; 12.注:此岗位位腾讯集团旗下子公司编制。
1.负责腾讯云效能提升专项工作,提升整体研发效率和交付质量;包括但不限于环境治理、工具开发、流程和方法的优化与改进,提升研发和工程生产力和效率; 2.赋能产研团队,帮助业务识别和分析研发测试环境中的痛点和问题,并提出解决方案,提供技术支持和工程赋能,推进各产品的测试、运维、发布等自动化和智能化落地; 3.协调各个团队,对研发测试环境治理进行持续改进,提炼、总结、发掘优秀实践并在组织内传播,推动落地; 4.备注:此岗位为腾讯集团旗下子公司编制。
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险