蚂蚁金服蚂蚁集团-AI推理引擎高可用工程师-杭州Z

社招全职技术类-开发2025-04-23地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 具有扎实的编程基础，熟悉至少一种开发语言(java, c/c++, python，golang)。
2. 熟悉Linux操作系统，对Linux 系统、网络等基础设施层有一定的了解和知识储备。
3. 有大规模集群管理和业务管理、优化经验、产品或者业务高…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责AI训练推理服务高可用方向工作，如推理框架、推理在线服务、训练平台、训练框架等。
2. 负责以上平台的集群的资源治理、数字化管理等平台的研发。
3. 通过软硬件协同优化和技术创新，为双11、双12大促，新春红包等重大活动的保障与业务护航。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

C+

C+++

Python+

Linux+

还有更多 •••

登录查看完整学习资料

相关职位

阿里国际-AI研发高级工程师-杭州

社招2年以上技术类-开发

我们是阿里巴巴国际数字商业集团的智能技术团队，负责阿里巴巴旗下多个国际化电商平台（如 AliExpress、Lazada、Trendyol 等）的搜索、推荐、广告、用户增长等核心技术。团队致力于将最前沿的 AI 技术——包括大模型、多模态理解、智能体（Agent）系统等——与国际化电商业务深度结合，为全球用户打造更智能、更个性化的购物体验，同时赋能百万商家实现高效、自动化的经营决策。选择加入我们，意味着你将投身于高速发展的全球化电商业务，参与构建下一代以 AI 为核心的智能商业基础设施。在这里，你不仅会推动传统算法系统的演进，还将主导面向未来的智能体（Agent）体系建设，打造具备感知、推理、决策与执行能力的自动化智能系统。你将有机会负责以下核心工作：支持业务快速迭代：高效推进来自搜索、推荐、广告、用户增长等领域的多样化产品需求落地，支撑多语言、多市场、多场景的业务敏捷创新。系统架构设计与优化：主导搜索、推荐、广告引擎的高可用、高并发架构设计，支持全球用户低延迟访问，并为智能体（Agent）系统的实时感知与响应能力提供底层支撑。性能调优与资源效率提升：针对召回排序、模型训练与推理、特征计算等关键链路，进行深度工程优化（如分布式计算加速、内存管理、GPU/TPU 资源调度等），提升算法迭代效率与系统吞吐能力，为大规模 Agent 部署提供高性能基础设施。工程平台体系建设：构建算法与工程协同的标准化平台，包括实时特征平台、在线推理服务框架、AB 实验平台、策略仿真环境等，支持从传统模型到智能体（Agent）的全生命周期开发与效果验证。大模型与智能体（Agent）工程落地：负责生成式 AI 技术的工程化落地，包括大模型训练、推理加速、多模态内容生成等；主导电商智能体（E-commerce Agent）系统的设计与实现，构建具备任务规划、工具调用、多轮交互、自主决策能力的智能体架构；探索基于大模型的自动化运营、智能客服、个性化导购、商家助手等 Agent 应用场景，推动 AI 从“辅助”走向“自主执行”。加入我们，你将站在 AI 与全球电商融合的最前沿，用技术重新定义人、货、场的连接方式，共同打造一个由智能体驱动的下一代国际化电商平台。

更新于 2026-01-19杭州

蚂蚁集团-AI基建工程师（引擎方向）-北京/杭州

社招2年以上技术类-开发

1. 面向安全领域对抗式、判别式等特色智能化场景，设计和研发分布式训练和推理引擎基础设施，支持超长上下文等安全业务特色需求； 2. 针对Agentic RL等大模型研发范式，诊断并优化算力和显存消耗，提升训练推理规模和性能，提供支持故障恢复的高可用引擎系统； 3. 对推理服务引擎、系统和链路进行全面优化，降低大模型服务成本，提升推理效率，增强服务稳定性； 4. 对安全场景的大模型研发重点难点问题攻坚克难，进行技术创新突破，跟进和超越业界SOTA；

更新于 2026-02-03北京|杭州

钉钉-AI(音频)-开发工程师

社招2年以上技术类-开发

1、模型部署与服务化封装：负责音频相关 AI 模型（ASR、TTS、Audio LLM 等）的工程化落地。将训练好的模型（涵盖小参数模型及复杂的音频处理 Pipeline）封装为高可用、高性能的线上服务（gRPC/RESTful API）。 2、高性能推理优化：负责构建支持高并发、低延迟的推理引擎。参考 vLLM、TGI 等主流 LLM 推理框架的优化思路（如 PagedAttention、Continuous Batching 等），针对音频模型的特性进行算子融合、显存优化和吞吐量提升。 3、实时流式处理：设计并实现 ASR（语音转文字）和 TTS（语音合成）的实时流式（Streaming）推理架构，优化首字延迟（TTFT）和端到端响应速度，确保在实时交互场景下的流畅体验。 4、系统稳定性与运维：负责推理服务的容器化（Docker/K8s）部署，配合 DevOps 建立服务的监控、日志追踪及自动扩缩容机制，保障线上服务的稳定性。

更新于 2026-01-30杭州

业务技术-高性能AI大模型网关工程师-急招

社招1年以上

作为集团 AI 基础设施的关键组成部分，你将负责内部大模型网关（AI Hub）的设计、开发与持续演进，打造统一、高效、智能的大模型服务接入平台。我们向下聚合集团内外多源大模型能力（包括自研及第三方 LLM、多模态模型等），向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战，你将深度参与以下核心技术方向： - 构建智能路由引擎，支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求； - 设计精细化流量治理体系，实现多租户配额管理、Token 级限流、优先级队列与熔断降级； - 打造商业化计费与用量追踪系统，支撑按 Token、时长或套餐的灵活计费模式； - 优化流式推理链路（SSE/WebSocket），保障长上下文、高吞吐场景下的低首Token延迟（TTFT）与稳定性； - 协同底层算力平台，推动网关与推理引擎（如 vLLM、TGI）的高效协同，提升 GPU 资源利用率。你的工作将直接影响集团 AI 能力效率、服务成本与用户体验，是推动 AI 工程化落地的核心力量！加入我们，一起创造价值~

更新于 2026-02-05杭州