logo of bytedance

字节跳动服务器硬件系统工程师(异构计算方向)

社招全职5年以上A22555A地点:上海状态:招聘

任职要求


1、至少5年以上异构硬件系统方案分析经验,有大规模异构计算系统的方案设计和实现经验;
2、熟悉计算机体系结构、硬件设计和实现,熟悉CPU、GPU、FPGA等异构计算硬件;
3、熟悉PCIe、DDR、网络和存储等系统总线和协议;
4、熟悉各类常见异构类平台,如GPU训练,推理场景加速硬件平台等;
5、在大团队、跨团队的项目推动和组织方面有成功经验;
6、具备良好的分析和解决问题的能力。

工作职责


1、理解上层业务应用,结合异构芯片应用特点,负责异构硬件系统需求分析,输出异构芯片需求规格,输出异构硬件系统方案;
2、和业务团队、软硬件研发团队紧密配合,分析工作负载模型,帮助业务团队实现硬件方案创新,提升性能、降低成本;
3、与芯片、网络、IDC、软件等团队紧密协作,负责异构芯片需求规格和异构硬件系统方案分析,确保异构硬件系统在TCO、性能、可靠性、DFX等方向竞争力领先;
4、跟进行业组织、开放标准组织,研究分析最新的技术、标准;结合产业链的最新技术能力和硬件产品特点提供综合竞争力领先的异构硬件系统方案。
包括英文材料
FPGA+
相关职位

logo of bytedance
社招5年以上A82344

1、理解上层业务应用,结合异构芯片应用特点,负责异构硬件系统需求分析,输出异构芯片需求规格,输出异构硬件系统方案; 2、和业务团队、软硬件研发团队紧密配合,分析工作负载模型,帮助业务团队实现硬件方案创新,提升性能、降低成本; 3、与芯片、网络、IDC、软件等团队紧密协作,负责异构芯片需求规格和异构硬件系统方案分析,确保异构硬件系统在TCO、性能、可靠性、DFX等方向竞争力领先; 4、跟进行业组织、开放标准组织,研究分析最新的技术、标准;结合产业链的最新技术能力和硬件产品特点提供综合竞争力领先的异构硬件系统方案。

更新于 2024-10-17
logo of liauto
校招供应链与智能制造

1、端侧机器人硬件全栈整合: 设计机器人"大脑"(决策中心)的高性能计算平台,支持复夏杂AI算法实时处理; 。构建"小脑"(运动控制)硬件系统,实现低延迟传感-控制闭环,确保运动精度与可靠性; 。推动大脑-小脑硬件协同架构设计,解决系统级通信、供电与热管理挑战; 2、前沿技术探索:跟踪AI硬件(存算一体、光互连等)、机器人灵巧控制、新新型传感器等前沿技术,主导技术预研与原型验证;承担高风险、高潜力创新项目,推动技术边界突破; 3.跨领域协同:与软件/算法团队协作,定义硬件-软件接口规范,优化系统级性能;指导硬件团队实现设计落地,解决量产过程中的工程问题。

logo of bytedance
社招5年以上A5253

1、结合对混合云平台应用特点,深入理解上层应用迭代路标,整理输出清晰的混合云硬件产品支持路标,确保硬件方案的领先性; 2、负责混合云各类业务组件资源需求画像、跨代跨平台场景化性能收益测试验证,设计性能测试方案,执行性能测试,针对系统性能瓶颈分析,提出调优建议并协助调试验证完成,输出性能测试报告;协调解决新硬件、新技术落地过程中遇到的技术问题; 3、混合云产品业务场景收益对比评估,确定选型方案,输出方案迭代标准算力/资源折算方案; 4、结合产业链的最新技术能力和硬件产品架构特点,提供综合竞争力领先的异构硬件解决方案,输出自研硬件服务器产品资料; 5、监控和分析异构云硬件在实际应用中的质量、性能表现,并提供系统的技术支持能力,推动改进识别和落地。

更新于 2022-10-10
logo of aliyun
实习阿里云2026届

阿里云持续推进AI技术深化战略布局,围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 负责云计算和大数据基础技术研发,包括不限于以下方向: 1、云基础设施技术,包括研发面向百万级服务器的网络(如RDMA、可编程芯片)、服务器(如异构计算)、数据中心,以及构建超大规模的基础设施智能化运维体系(如AIOps); 2、虚拟化技术,包括XEN、KVM等开源技术的改进,以及也包括我们自研的SDN、VPC等网络虚拟化、存储虚拟化技术,还包括Docker等轻量级的容器方案; 3、MySQL、PostgreSQL、MongoDB、Redis、HBase等开源数据库内核的改进; 4、包含单集群上万个节点,多地多集群的超大规模分布式存储系统(文件系统,KVstore,BigTable等等)、分布式计算系(MapReduce,DAG,MPI并行计算、Batch、类Hive/spark的计算系统包括离线,分布式开发语言,分布式开发IDE,查询优化,流式实时计算,图计算,MPP等等)、弹性分布式资源管理和调度(海量多维度的多目标的调度系统,多个资源维度资源隔离技术等等)、机器学习平台(包括Paratemter Server,深度学习,逻辑回归等等)、异构等新型硬件上计算(包括CPU,GPU,FPGA,RDMA等等); 5、大数据在线引擎体系的目标是集广告、搜索、推荐的投放三位于一体,在近百毫秒周期内,从服务端跨越至移动端上智能,支撑总体近TB级的模型,完成知识推理向量匹配等各种召回,以及其它深度学习的排序和预测算法,参与计算的数十亿商品保持实时更新,支持数百位算法工程师面向众多场景展开测试,在算子流图化的抽象之下,引擎内的模型和数据可随时调整布局满足迭代所需; 6、参与大规模高并发场景下的开发者工具如IDE、SDK、CLI的开发工作,toB相关认证、权限、审计平台合规等相关工具平台的研发工作。

更新于 2025-04-29