logo of bytedance

字节跳动训练推理一体化存储研发高级工程师-Data

社招全职3年以上A56142地点:北京状态:招聘

任职要求


1、3年以上相关领域开发经验,扎实的编程能力,精通C/C++/Java中的一种;
2、对分布式系统的架构和原理有比较深入的了解;
3、优秀的发现和解决问题能力,良好的沟通能力,具备团队合作精神。

加分项:
1、拥抱开源,有开源项目经历,对前沿技术有浓厚的热情和探索欲望;
2、熟悉Paxos/Raft等分布式一致性算法;
3、熟悉分布式事务模型;
4、熟悉常见存储引擎RocksdbRedis底层代码;
5、熟悉操作系统底层知识,有TCP/IP、IO等系统调优经验。

工作职责


团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。

1、负责设计和实现面向推荐/广告大模型推理和训练的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS)等多种介质进行数据的存储和迁移管理,实现近计算缓存+远端大容量存储的一体化分级系统;
2、负责优化推荐大模型KV Cache命中率,从推理框架、流量调度、多级缓存等多个系统维度入手定制化优化策略,和业务方协作完成端到端推理性能加速;
3、负责建设搜广推通用用户行为数据存储,设计和实现离在线EB级别行为数据的统一存储、IO、近端Cache解决方案,支撑EB级别训练和推理数据,提供高可用保障,在离在线混合负载下,高吞吐和低延时能力的分布式存储系统。
包括英文材料
C+
C+++
Java+
分布式系统+
Paxos+
Raft+
算法+
RocksDB+
Redis+
TCP/IP+
相关职位

logo of liauto
社招5年以上智能与信息技术

1、负责企业级AI研发一体化平台的产品规划、设计、落地及推广,推动产品快速迭代升级,打造覆盖算法开发全流程的一站式工具链; 2、负责算法平台架构设计,包括但不限于模型训练、模型评估、模型推理、流程编排、资源管理等核心模块,支撑业务完成数据及算法闭环; 3、以跨业务线的需求作为切入点,深入具体业务进行迭代产品,对公共功能模块进行平台化抽象,完成对平台产品的定义,先于业务线产品的需求提前进行探索性的工作; 4、负责产品的项目管理,推动设计、技术、测试等相关团队及合作部门按时完成产品研发、高质量上线,完成产品目标; 5、熟悉算法开发的全流程,了解PyTorch、Tensorflow等常用深度学习算法框架,熟悉模型分布式训练原理及高性能推理引擎,能够针对业务算法工程化需求提供专业的产品解决方案。

logo of antgroup
社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台,HCS产品架构师的职责包括: ● 平台架构设计: 在日益复杂的AI异构的大背景下,主导设计并构建能够支撑大规模算力交付的平台架构,涵盖系统,内核,存储,网络,算力,kubernetes,确保平台具备高性能、高可用、弹性扩展和安全性,满足海量业务场景需求。 ● 算力交付体系构建: 建立高效的算力交付体系,优化资源调度和分配策略,实现算力的快速供给和弹性伸缩,降低业务获取算力的复杂度,和提升算力使用体验。 ● 算力优化架构:设计和建设智算时代的通智一体的算力架构,实现算力的分时,混部,隔离,一体化调度的架构,充分满足业务的同时,提升资源利用率 ● 经营体系搭建: 构建算力服务的经营体系,制定合理的资源定价模型和计费策略,建立完善的成本控制和收益分析机制,推动平台实现商业化运营。

更新于 2025-06-11
logo of aliyun
实习阿里云2026届

阿里云持续推进AI技术深化战略布局,围绕AI和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正在招募软硬件结合开发工程师,致力于打造下一代智能化软硬件一体化解决方案。 作为软硬件结合开发工程师,你将参与从底层硬件设计到上层软件优化的全流程研发工作,推动AI、云计算和大数据技术在高性能计算、异构计算等领域的创新与落地。具体职责包括但不限于以下方向: 岗位职责 1. 软硬件协同优化 负责软硬件协同设计,优化计算性能、能耗效率和系统稳定性。 针对特定应用场景(如AI推理、分布式存储、实时计算等),设计并实现高效的软硬件解决方案。 2. 基于FPGA/ASIC芯片的设计与开发 参与FPGA/ASIC芯片的设计与验证,包括算法映射、硬件架构设计和性能调优。 开发硬件抽象层(HAL)和相关工具链,支持硬件加速器与上层软件的无缝集成。 参与硬件加速器及系统仿真模型的开发和调试。 3. 计算平台底层软件开发 研发基于CPU、GPU、FPGA、ASIC等硬件的计算平台,提升AI训练和推理等业务的计算性能。 基于自研芯片平台,进行驱动和固件等开发,支持深度学习框架等软件在硬件平台上高效运行。 4. 操作系统与固件开发 优化Linux内核、设备驱动和固件,提升硬件资源利用率和系统响应速度。 开发针对特定硬件的定制化操作系统模块,满足高性能计算需求。 5. 开发者工具与生态建设 开发软硬件结合的开发者工具链(如SDK、CLI、IDE插件),降低开发门槛。 构建开放的技术生态,推动软硬件一体化解决方案的广泛应用。

更新于 2025-04-29
logo of bytedance
社招A120261

字节DPU团队致力于构建字节跳动集团以及火山引擎公有云的计算基础设施底座,致力于下一代云计算领域底层软硬件技术(计算/网络/存储)的研发和探索,含下一代的软硬一体虚拟化 Hypervisor 底座、自研用户态网络协议栈、高速传输协议及应用、虚拟网络交换机、高性能存储栈等技术方向的生产开发与前沿探索。 1、探索大模型推理、训练中的CCL性能优化及其在性能分析及GPU故障检测中的应用; 2、探索DPU NIC+CCL实现CCL加速; 3、探索DPU下,GPU虚拟化及池化共享技术,提高GPU利用率。

更新于 2024-08-07