logo of antgroup

蚂蚁金服蚂蚁集团-AI推理引擎高可用工程师-杭州Z

社招全职技术类-开发地点:杭州状态:招聘

任职要求


1. 具有扎实的编程基础,熟悉至少一种开发语言(java, c/c++, pythongolang)。
2. 熟悉Linux操作系统,对Linux 系统、网络等基础设施层有一定的了解和知识储备。
3. 有大规模集群管理和业务管理、优化经验、产品或者业务高…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责AI训练推理服务高可用方向工作,如推理框架、推理在线服务、训练平台、训练框架等。
2. 负责以上平台的集群的资源治理、数字化管理等平台的研发。
3. 通过软硬件协同优化和技术创新,为双11、双12大促,新春红包等重大活动的保障与业务护航。
包括英文材料
Java+
C+
C+++
Python+
Linux+
还有更多 •••
相关职位

logo of alibaba
社招2年以上技术类-开发

我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台(如 AliExpress、Lazada、Trendyol 等)的搜索、推荐、广告、用户增长等核心技术。团队致力于将最前沿的 AI 技术——包括大模型、多模态理解、智能体(Agent)系统等——与国际化电商业务深度结合,为全球用户打造更智能、更个性化的购物体验,同时赋能百万商家实现高效、自动化的经营决策。 选择加入我们,意味着你将投身于高速发展的全球化电商业务,参与构建下一代以 AI 为核心的智能商业基础设施。在这里,你不仅会推动传统算法系统的演进,还将主导面向未来的 智能体(Agent)体系 建设,打造具备感知、推理、决策与执行能力的自动化智能系统。你将有机会负责以下核心工作: 支持业务快速迭代:高效推进来自搜索、推荐、广告、用户增长等领域的多样化产品需求落地,支撑多语言、多市场、多场景的业务敏捷创新。 系统架构设计与优化:主导搜索、推荐、广告引擎的高可用、高并发架构设计,支持全球用户低延迟访问,并为智能体(Agent)系统的实时感知与响应能力提供底层支撑。 性能调优与资源效率提升:针对召回排序、模型训练与推理、特征计算等关键链路,进行深度工程优化(如分布式计算加速、内存管理、GPU/TPU 资源调度等),提升算法迭代效率与系统吞吐能力,为大规模 Agent 部署提供高性能基础设施。 工程平台体系建设:构建算法与工程协同的标准化平台,包括实时特征平台、在线推理服务框架、AB 实验平台、策略仿真环境等,支持从传统模型到智能体(Agent)的全生命周期开发与效果验证。 大模型与智能体(Agent)工程落地: 负责生成式 AI 技术的工程化落地,包括大模型训练、推理加速、多模态内容生成等; 主导 电商智能体(E-commerce Agent)系统 的设计与实现,构建具备任务规划、工具调用、多轮交互、自主决策能力的智能体架构; 探索基于大模型的自动化运营、智能客服、个性化导购、商家助手等 Agent 应用场景,推动 AI 从“辅助”走向“自主执行”。 加入我们,你将站在 AI 与全球电商融合的最前沿,用技术重新定义人、货、场的连接方式,共同打造一个由智能体驱动的下一代国际化电商平台。

更新于 2026-01-19杭州
logo of dingtalk
社招2年以上技术类-开发

1、模型部署与服务化封装:负责音频相关 AI 模型(ASR、TTS、Audio LLM 等)的工程化落地。将训练好的模型(涵盖小参数模型及复杂的音频处理 Pipeline)封装为高可用、高性能的线上服务(gRPC/RESTful API)。 2、高性能推理优化:负责构建支持高并发、低延迟的推理引擎。参考 vLLM、TGI 等主流 LLM 推理框架的优化思路(如 PagedAttention、Continuous Batching 等),针对音频模型的特性进行算子融合、显存优化和吞吐量提升。 3、实时流式处理:设计并实现 ASR(语音转文字)和 TTS(语音合成)的实时流式(Streaming)推理架构,优化首字延迟(TTFT)和端到端响应速度,确保在实时交互场景下的流畅体验。 4、系统稳定性与运维:负责推理服务的容器化(Docker/K8s)部署,配合 DevOps 建立服务的监控、日志追踪及自动扩缩容机制,保障线上服务的稳定性。

更新于 2026-01-16杭州
logo of antgroup
社招1年以上技术类-开发

负责 AI Agent Infra 建设,提升 AI Agent 产品创新效率,探索生成式 AI 在数字世界的实际应用。 1. 建设 Agent SWE Infra 工程,提升 Agent 相关代码的个性化构建和发布效率; 2. 建设 Sandbox Infra 工程,为各类 Agentic 场景提供高效、稳定、大规模的模拟器、多工具、图形交互的沙箱环境; 3. 建设 Serving Infra 工程,为生产提供通用的 Agent 服务化框架,优化 LLM 和 Agent 性能,保障高可用运行。

更新于 2026-01-16北京|杭州
logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-10-23北京|上海|杭州