平头哥平头哥-资深AI芯片互联架构师-上海
任职要求
* Minimum Bachelor degree in Computer Science or Electronics Engineering; M.S. or Ph.D. degree is preferred. * Minimum of 12 years (for M.S.) 8 years (for Ph.D.) of experience on computer architecture or network chip design with proven silicon result. * Strong experience in at least one of the following areas and have experience of technical leadership of successful chip development from architecture design to final production is a must: 1.Server AI chip. 2.S…
工作职责
In this role, you will work with hardware and software engineering groups to define the next-generation inter-chip network architecture for high-performance AI chip and AI network. * Identifies the challenging problems, and evaluate various architectural solutions for the next-generation of network for AI chip and AI Super Pod. * Gets strong influences on future AI products by advanced architecture design as the excellent interface between software and hardware. * Leads architecture design of AI chip to chip interconnect subsystem, Scale-up Switch chip, C2C link, and etc. * Documents the high-level architecture specification. * Participation in defining the micro-architecture of key subsystem. * Strong technical leadership to archive successful delivery of final silicon product. * Works closely with design, software, system, and verification team.
1. 负责手机/PAD/IoT设备/PC的互联互通架构设计,确保低延迟、高可靠性的数据传输 2. 制定跨平台通信协议(如蓝牙/BLE、Wi-Fi Direct、NFC、UWB、WebRTC等)的技术方案,优化设备发现、配对、数据传输流程 3. 设计并优化多设备协同场景(如跨设备剪贴板、任务接力、多屏互动、文件快传、键鼠共享等)的技术实现。 4. 跟踪手机/IoT互联技术趋势,推动创新技术落地 5. 研究AI在设备互联中的应用(如智能预测设备连接、自适应传输优化)
工作职责 1. 负责手机/PAD/IoT设备/PC的互联互通架构设计,确保低延迟、高可靠性的数据传输 2. 制定跨平台通信协议(如蓝牙/BLE、Wi-Fi Direct、NFC、UWB、WebRTC等)的技术方案,优化设备发现、配对、数据传输流程 3. 设计并优化多设备协同场景(如跨设备剪贴板、任务接力、多屏互动、文件快传、键鼠共享等)的技术实现。 4. 跟踪手机/IoT互联技术趋势,推动创新技术落地 5. 研究AI在设备互联中的应用(如智能预测设备连接、自适应传输优化)
1.洞察深度学习加速芯片的技术趋势和产业链发展方向,整合行业资源完成芯片研发; 2.定义下一代深度学习加速芯片,并驱动关键技术的探索性研究; 3.负责承接公司在深度学习加速芯片的战略规划,横向拉通各技术部门,推动协同规划,推动预研项目的立项以及目标达成。
我们正在寻找资深AI集群工程师,负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者,您将参与从硬件选型到调度优化的全链路工作,支撑公司核心AI业务的万卡级算力需求。 Kubernetes调度与计算平台 资源调度与集群管理 - 设计和实现GPU算力调度系统,优化资源利用率和作业调度效率 - 负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化 - 深度排查Kubernetes集群复杂问题 计算平台与节点优化 - 参与服务器硬件选型、测试和验收,重点优化GPU服务器性能 - 推进国产AI芯片的生态适配 - 建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性 扩展方向:性能优化(附加项) - 参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率 - 深入文件系统、缓存、镜像、cri细节,优化容器启动速度