蚂蚁金服蚂蚁集团-AI推理引擎高可用工程师-杭州Z
任职要求
1. 具有扎实的编程基础,熟悉至少一种开发语言(java, c/c++, python,golang)。 2. 熟悉Linux操作系统,对Linux 系统、网络等基础设施层有一定的了解和知识储备。 3. 有大规模集群管理和业务管理、优化经验、产品或者业务高…
工作职责
1. 负责AI训练推理服务高可用方向工作,如推理框架、推理在线服务、训练平台、训练框架等。 2. 负责以上平台的集群的资源治理、数字化管理等平台的研发。 3. 通过软硬件协同优化和技术创新,为双11、双12大促,新春红包等重大活动的保障与业务护航。
我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台(如 AliExpress、Lazada、Trendyol 等)的搜索、推荐、广告、用户增长等核心技术。团队致力于将最前沿的 AI 技术——包括大模型、多模态理解、智能体(Agent)系统等——与国际化电商业务深度结合,为全球用户打造更智能、更个性化的购物体验,同时赋能百万商家实现高效、自动化的经营决策。 选择加入我们,意味着你将投身于高速发展的全球化电商业务,参与构建下一代以 AI 为核心的智能商业基础设施。在这里,你不仅会推动传统算法系统的演进,还将主导面向未来的 智能体(Agent)体系 建设,打造具备感知、推理、决策与执行能力的自动化智能系统。你将有机会负责以下核心工作: 支持业务快速迭代:高效推进来自搜索、推荐、广告、用户增长等领域的多样化产品需求落地,支撑多语言、多市场、多场景的业务敏捷创新。 系统架构设计与优化:主导搜索、推荐、广告引擎的高可用、高并发架构设计,支持全球用户低延迟访问,并为智能体(Agent)系统的实时感知与响应能力提供底层支撑。 性能调优与资源效率提升:针对召回排序、模型训练与推理、特征计算等关键链路,进行深度工程优化(如分布式计算加速、内存管理、GPU/TPU 资源调度等),提升算法迭代效率与系统吞吐能力,为大规模 Agent 部署提供高性能基础设施。 工程平台体系建设:构建算法与工程协同的标准化平台,包括实时特征平台、在线推理服务框架、AB 实验平台、策略仿真环境等,支持从传统模型到智能体(Agent)的全生命周期开发与效果验证。 大模型与智能体(Agent)工程落地: 负责生成式 AI 技术的工程化落地,包括大模型训练、推理加速、多模态内容生成等; 主导 电商智能体(E-commerce Agent)系统 的设计与实现,构建具备任务规划、工具调用、多轮交互、自主决策能力的智能体架构; 探索基于大模型的自动化运营、智能客服、个性化导购、商家助手等 Agent 应用场景,推动 AI 从“辅助”走向“自主执行”。 加入我们,你将站在 AI 与全球电商融合的最前沿,用技术重新定义人、货、场的连接方式,共同打造一个由智能体驱动的下一代国际化电商平台。
1. 面向安全领域对抗式、判别式等特色智能化场景,设计和研发分布式训练和推理引擎基础设施,支持超长上下文等安全业务特色需求; 2. 针对Agentic RL等大模型研发范式,诊断并优化算力和显存消耗,提升训练推理规模和性能,提供支持故障恢复的高可用引擎系统; 3. 对推理服务引擎、系统和链路进行全面优化,降低大模型服务成本,提升推理效率,增强服务稳定性; 4. 对安全场景的大模型研发重点难点问题攻坚克难,进行技术创新突破,跟进和超越业界SOTA;
1、模型部署与服务化封装:负责音频相关 AI 模型(ASR、TTS、Audio LLM 等)的工程化落地。将训练好的模型(涵盖小参数模型及复杂的音频处理 Pipeline)封装为高可用、高性能的线上服务(gRPC/RESTful API)。 2、高性能推理优化:负责构建支持高并发、低延迟的推理引擎。参考 vLLM、TGI 等主流 LLM 推理框架的优化思路(如 PagedAttention、Continuous Batching 等),针对音频模型的特性进行算子融合、显存优化和吞吐量提升。 3、实时流式处理:设计并实现 ASR(语音转文字)和 TTS(语音合成)的实时流式(Streaming)推理架构,优化首字延迟(TTFT)和端到端响应速度,确保在实时交互场景下的流畅体验。 4、系统稳定性与运维:负责推理服务的容器化(Docker/K8s)部署,配合 DevOps 建立服务的监控、日志追踪及自动扩缩容机制,保障线上服务的稳定性。
作为集团 AI 基础设施的关键组成部分,你将负责内部大模型网关(AI Hub)的设计、开发与持续演进,打造统一、高效、智能的大模型服务接入平台。 我们向下聚合集团内外多源大模型能力(包括自研及第三方 LLM、多模态模型等),向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。 面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战,你将深度参与以下核心技术方向: - 构建智能路由引擎,支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求; - 设计精细化流量治理体系,实现多租户配额管理、Token 级限流、优先级队列与熔断降级; - 打造商业化计费与用量追踪系统,支撑按 Token、时长或套餐的灵活计费模式; - 优化流式推理链路(SSE/WebSocket),保障长上下文、高吞吐场景下的低首Token延迟(TTFT)与稳定性; - 协同底层算力平台,推动网关与推理引擎(如 vLLM、TGI)的高效协同,提升 GPU 资源利用率。 你的工作将直接影响集团 AI 能力效率、服务成本与用户体验,是推动 AI 工程化落地的核心力量!加入我们,一起创造价值~