字节跳动硬件加速推理引擎运行时开发工程师-Data(深圳)
任职要求
1、计算机科学、电子工程、数学或相关领域的本科及以上学历;3年以上推理引擎、编译器或高性能计算相关开发经验; 2、熟悉C++/Python编程语言,具备扎实的编程能力和代码优化经验; 3、熟悉深度学习框架(如TensorFlow、PyTorch、ONNX等)的运行时机制; 4、熟悉计算机体系结构,了解CPU、GPU、NPU等硬件架构; 5、熟悉多线程…
工作职责
1、设计并实现推理引擎的核心运行时组件,包括模型加载、图优化、算子调度、内存管理等; 2、开发和维护推理引擎的运行时库,支持多种深度学习框架(如TensorFlow、PyTorch、ONNX等);分析和解决推理引擎在运行时中的性能瓶颈,提升吞吐量和降低延迟; 3、针对不同硬件平台(CPU、GPU、NPU等)进行推理引擎的性能优化,包括算子优化、内存优化和计算图优化; 4、开发和维护推理引擎的跨平台支持,确保其在多种操作系统(Linux、Windows、嵌入式系统等)和硬件架构上稳定运行; 5、开发和维护推理引擎的编译工具链,支持模型转换、量化、剪枝等优化技术;提供调试和Profiling工具,帮助开发者分析和优化推理性能; 6、与算法和产品团队合作,支持新模型和新算子的快速集成和部署,确保推理引擎满足实际业务需求。
1、负责快手搜推广服务的云原生管控方向,建设云上的平台化服务管控、服务调度能力; 2、结合服务场景设计相关调度策略、智能弹性伸缩能力、潮汐混部能力,提高集群硬件利用率。
-数据库质量保证策略设计 -基于数据库内核架构(如事务引擎、存储管理、并发控制等),设计覆盖功能、性能、稳定性、安全性和灾难恢复的综合性测试策略 -针对极端场景(如硬件故障、网络分区、超大规模数据压力)和大事务/高并发场景,构建破坏性测试和压力测试模型 -测试用例开发 -编写自动化测试脚本(如Python/Perl/Shell/C++),覆盖SQL语法、事务隔离级别、锁机制、备份恢复等核心功能 -自动化测试工具以及测试用例管理平台的开发和管理工作。 使用各种测试工具和技术,自动化测试,记录和分析测试结果,并跟踪和验证缺陷 -编写测试报告和文档: 清晰准确地记录测试过程、结果和分析,编写测试报告和相关文档 -设计复杂场景测试用例,例如:极端压力测试:模拟百万级并发事务、TB级数据量下的系统稳定性;破坏性测试:强制断电、磁盘I/O错误注入、内存溢出等异常场景;边界条件测试:验证索引深度、页分裂、日志写满等临界值场景 -性能分析与调优 -使用工具(如sysbench、tpcc、tpch、自定义基准测试)分析查询执行计划、锁竞争、I/O瓶颈 -结合内核日志(如InnoDB redo log、PostgreSQL WAL)定位性能问题,推动优化方案落地 -缺陷管理与协作 -搭建测试环境(含多节点集群、混合负载),复现并跟踪内核级Bug(如死锁、数据不一致) -与开发团队紧密合作,提供Root Cause Analysis(RCA)支持,参与代码审查,提供测试反馈,协助开发人员定位和修复问题,推动内核代码修复 -技术预研与创新 -探索新技术(如向量化查询、持久内存、分布式事务)的测试方法 -开发定制化测试工具(如混沌工程平台、自动化故障注入系统)
1. 负责实现底层接口的封装,为应用层提供高效的API; 2. 负责实现跨域通信接口设计和实现,基于socket,共享内存等技术; 3. 负责对当前软件代码调优,降低应用软件的硬件占用率; 4. 负责应用空间调试工具和测试工具的开发;