logo of thead

平头哥平头哥-AI计算加速软件专家-上海

社招全职5年以上技术-芯片地点:上海状态:招聘

任职要求


1. 计算机/电子/数学相关专业硕士及以上学历,3年或以上相关从业经验。
2. 精通 C/C++,具备出色的程序开发、设计、调试和调优能力。
3. 精通各种基本算法,对操作系统、计算机体系结构有深入的理解。
4. 良好的沟通和解决问题能力、时间管理能力、自我驱动能力、英文读写能力。
5. 满足以下一种或多种条件者从优:
ꔷ      具备大模型推理或训练相关开源模块的开发经验,如 cutlass、Flash-Attention、FlashInfer、MoE、DeepGemm 等;
ꔷ      熟悉主流框架,如 PytorchTensorflowvllmsglang、TRT-LLM 等;熟悉大语言模型算法,如 LLaMa/Qwen/DeepSeek 等;
ꔷ      具备坚实的并行编程基础:有 CUDA/OpenCL 相关项目经历;
ꔷ      参与卷积、矩阵乘、矩阵分解、Normalize 等 AI 相关算子开发调优经验;
ꔷ      深入参与软件架构设计和优化、性能分析和调优的项目经验;
ꔷ      对可编程芯片(如 GPU/NPU/TPU/CPU)架构有深入理解,或有对应研发经历;
ꔷ      对数值计算、线性代数相关算法有深刻的理解;

工作职责


1. 设计开发高性能计算加速算法,包括但不限于MoE、Attention、卷积、矩阵乘及相关的融合和量化。
2. 基于硬件特性进行极致性能分析和优化,制定通用性能调优策略,适配和调优各种主流框架和开源代码。
3. 深度分析各种实际应用,如生成式AI/大语言模型推理和训练等场景,发明和改进能发挥硬件优势的加速算法。
4. 和其他团队紧密合作,参与并影响芯片架构、编程模型和软件平台的设计和路线演进。
包括英文材料
学历+
C+
C+++
算法+
CUDA+
OpenCL+
深度学习+
TensorFlow+
PyTorch+
Megatron+
DeepSpeed+
大模型+
vLLM+
SGLang+
Llama+
相关职位

logo of thead
社招5年以上技术-芯片

1. 设计开发高性能计算加速算法,包括但不限于MoE、Attention、卷积、矩阵乘及相关的融合和量化。 2. 基于硬件特性进行极致性能分析和优化,制定通用性能调优策略,适配和调优各种主流框架和开源代码。 3. 深度分析各种实际应用,如生成式AI/大语言模型推理和训练等场景,发明和改进能发挥硬件优势的加速算法。 4. 和其他团队紧密合作,参与并影响芯片架构、编程模型和软件平台的设计和路线演进。

更新于 2025-09-22
logo of aliyun
社招5年以上技术类-开发

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-06-18
logo of aliyun
社招技术类-开发

1. 负责研发AI异构计算软件栈,通过结合不同加速芯片的特性,实现AI计算的全链路优化,助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景,开展软硬件协同优化和技术创新(包括但不限于算子优化与编译、量化压缩,计算通讯融合,系统调度、分布式推理优化等工程任务),为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

更新于 2025-07-02
logo of liauto
社招智能与信息技术

1. 负责智驾系统中的多媒体和AI子系统的软件全栈架构设计和开发,支撑智驾和部分座舱应用。 2. 参与芯片设计的选型、硅前仿真、硅后迭代,向芯片设计团队输出定制/自研需求。 3. 对接智能驾驶量产研发团队,负责/参与整体交付件的需求分析,包括底软、内核、hypervisor、工具、中间件等。