logo of aliyun

阿里云阿里云智能-大模型算法开发高级工程师-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1. 深厚的算法理解力: 能够独立阅读并拆解大模型领域的前沿论文,理解 Transformer 及其衍生架构的数学原理与计算逻辑(不仅是会调用,更要懂原理)。
2. 硬核工程动手能力: 精通 Python/C++ 研发,熟练掌握PyTorch开发、有PyTorch分布式训练经验,有SFT、DPO、GRPO等后训练或强化学习实战经验,有 Agentic RL 训练经验。
3. 异构研发经验: 在处理大规模分布式推理或训练任务中,具备解决死锁、显存瓶颈及精度对齐等实际问题的实战经历,有主…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 前沿模型架构研发:负责大模型前沿架构(如 Linear Attention、原生多模态、MoE 等)的底层工程实现。深度参与算法底层逻辑重构,将前沿理论模型转化为高性能的训练与推理模型。
2. 复杂算子优化与系统级重构:针对非标准及新型算法架构,设计并实现深度定制化的分布式算子。通过重构核心计算组件,解决超大规模模型在异构算力集群下的瓶颈问题,打造具备极致响应速度和吞吐能力的推理后端。
3. 大规模并行策略与资源调度:设计并落地匹配复杂架构的计算并行策略(TP/PP/EP/CP)及精细化显存管理方案。持续优化大规模集群通信机制,降低通信开销,确保在算力池中实现模型的高效、稳定运行。
包括英文材料
算法+
大模型+
Transformer+
Python+
C+++
PyTorch+
SFT+
强化学习+
深度学习+
还有更多 •••
相关职位

logo of quark
社招2年以上技术类-算法

1.负责语音大模型编解码技术研发; 2.负责语音生成、语音编辑,音色转换研究和开发;

更新于 2026-01-28杭州
logo of alibaba
社招2年以上

1.负责1688商家与商品的长周期需求预测,提升商家生意企划与生意解决方案的效果保障 2.负责1688商家经营端商品认知与品类规划垂直大模型,包括市场需求预测、供给需求匹配等,提升商家Agent的决策规划能力 3.负责1688商家全店生意企划与经营Agent开发,提升商家经营体验与效率 4.跟踪业界前沿算法进展,结合1688商家经营的业务场景,探索多模态、MOE和生成式决策等LLM能力的落地应用方案

更新于 2025-09-23杭州
logo of fliggy
社招2年以上

1、负责大模型客服产品的研发工作; 2、负责客服Agent的算法研发工作,提升用户体验和服务质量; 3、负责智能外呼、智能热线、在线agent 等研发工作; 4、重点在Agent架构、PostTraining、Agentic RL、自动化评估等方向进行探索与落地。

更新于 2026-03-30杭州
logo of dingtalk
社招3年以上技术类-算法

钉钉正在全面拥抱多模态AI,正在致力于将视觉大模型、边缘智能与实时视频分析深度融合,赋能智能零售、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围,期待志同道合的技术精英加入,共同推动视觉AI落地千行百业。 我们正在寻找在视觉AI领域具备真正工程化落地经验的技术人才,你将参与公司核心视觉AI系统的研发与优化,负责从算法设计、模型训练到高性能部署、大规模流式处理的全链路技术实现。具体职责包括: 1. 视觉大模型与算法开发 ○ 负责视觉大模型的后训练(Post-training)优化,包括微调、蒸馏、量化、剪枝等,提升模型在实际场景中的泛化能力与效率。 ○ 开发端侧视觉大模型,针对边缘设备进行轻量化设计与部署。 ○ 设计并实现传统CV算法(如目标检测、跟踪、姿态估计、图像增强等)与深度学习模型的融合方案。 ○ 构建视觉嵌入生成与特征提取模型,支持跨模态检索、相似性匹配等应用。 ○ 能根据实时性、性能、成本等多维约束,设计合理的算法组合与技术路线,实现最优落地效果。 ○ 在行业专家的指导下完成高质量的数据清洗和标注,建立多行业多场景的视觉AI评估框架 2. 高性能推理部署与优化 ○ 基于不同算法特性,选择并实施高并发、大吞吐的推理部署方案,熟练使用以下技术栈: ■ 推理框架:Triton Inference Server、ONNX Runtime、TensorRT ■ 部署平台:KServe + Triton / KServe + vLLM ○ 实现模型的动态批处理、自适应推理、低延迟响应,优化端到端服务性能。 ○ 负责模型格式转换、算子优化、硬件适配(GPU/TPU/NPU)及性能调优。 3. 分布式视频流处理系统构建是加分项 ○ 构建高可用、可扩展的分布式视频流处理 pipeline,支持多路视频流的实时接入与处理。 ○ 基于 Kafka + Flink 实现视频帧的流式消费、分发与状态管理。 ○ 完成视频数据的实时AI推理、结果聚合、元数据落盘,并与下游系统无缝集成。 ○ 保障系统在高负载下的稳定性、容错性与可监控性。 4. 跨团队协作与技术沉淀 ○ 与产品、业务、后端及硬件团队紧密协作,推动AI能力在真实业务场景中的落地。 ○ 输出技术文档、最佳实践,参与构建公司级AI工程化平台与工具链。

更新于 2026-03-18杭州