爱奇艺AI平台研发工程师（Infra方向）-校招

校招全职技术2026-03-26地点：上海状态：招聘

扫码手机上打开

任职要求

岗位要求
- 本科及以上学历，计算机、软件工程、人工智能等相关专业，有后端开发或AI工程化相关项目经验
- 至少精通Python/C++/Go中的一种，熟悉常用算法和数据结构，有较好的编码习惯
- 熟悉至少一种主流分布式训练、推理框架及优化方法，如 Megatron-LM/LlamaFactory/DeepSpeed/vLLM/…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍
团队长期深耕AI算法研发、AI基础架构建设、AI服务应用打造，负责从AI算法研发、性能优化加速、工程服务化与云端部署、服务调度与资源优化、到服务管理与运维在内的完整AI落地运用流程，覆盖线上数据到模型训练、训练模型到线上服务的闭环。近期重点聚焦AIGC在公司内容团队和产研团队的使用，通过大模型的能力，持续推动爱奇艺在内容创作、生产、分发、以及用户体验上的创新、优质、高效、自动化与智能化。欢迎愿意长期深耕AI领域的同学加入我们！


工作职责
- 参与AI工程服务化工作，将算法团队研发的AI能力初始原型进行服务化，落地成为业务团队线上稳定可用的AI应用
- 参与大模型训练平台、推理平台建设，包括但不限于分布式训练框架调优、推理引擎优化、模型量化及加速等
- 参与AI基础设施建设，包括计算资源管理、网络架构设计、存储系统优化等，提升资源利用率，降低大模型研发与应用成本
- AI领域最新进展的技术调研、引入改造、原型设计与开发等

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

后端开发+

Python+

C+++

Go+

算法+

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

AI Infra平台研发工程师（大模型开发机方向）-Seed

社招A149874A

团队介绍：字节跳动Seed团队成立于2023年，致力于寻找通用智能的新方法，追求智能上限，为科技和社会发展作出贡献。 Seed团队在AI领域拥有长期愿景与决心，团队研究方向涵盖MLLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位；目前，团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、即梦、TRAE等超过50个应用场景，并通过火山引擎开放给企业客户；第三方数据显示，豆包App用户量在中国市场排名第一，豆包大模型日均Token调用量行业领先。 1、负责大模型平台开发机的后端系统设计与研发，包括开发机生命周期管理、用户权限与资源隔离等能力； 2、设计和优化基于Kubernetes的资源编排与调度体系，支持CPU/GPU、共享存储、网络、镜像等复杂资源管理场景，跟进云原生、AI Infra、GPU调度、分布式训练、AI Agent等方向的技术演进，并推动在平台中的落地； 3、建设面向算法研发的云端开发体验，包括VS Code Server、SSH、Web IDE、任务环境复用、镜像管理、数据挂载等能力； 4、负责平台核心架构设计与工程化建设，提升系统的稳定性、可扩展性、可观测性和运维效率，包括服务治理、监控告警、日志链路、故障诊断、灰度发布、容量规划和成本优化； 5、与算法、训练平台、基础架构、运维等团队协作，持续提升大模型研发效率和资源利用率。

更新于 2026-06-09上海

AI Infra平台-研发工程师

社招3-5年J0012

1、面向AI应用场景设计开发业界领先的AI平台，包括prompt工程，RAG工程、模型微调、推理加速等能力； 2、负责大模型场景下多领域的数据工程，包含知识库数据的高质量处理，Prompt提示词的优化，模型微调数据集的质量提升； 3、负责大模型场景下模型推理框架的性能优化方案的设计与实现； 4、设计训练和优化大模型，跟踪和研发代码大模型的预训练、持续训练、SFT、RLHF等技术； 5、设计与实现AI智能体应用的编排定义，提升企业应用的智能度。

更新于 2025-12-19杭州|北京

AI Infra网络平台研发工程师

实习阿里巴巴2027

负责 AI Infra 网络基础设施技术及平台研发，包括但不限于以下方向： 1. ALINOS网络操作系统研发：以 SONiC 开源社区为技术底座，深度参与社区演进、持续贡献关键特性；打造高性能、高可靠的自研网络操作系统，深度参与多种交换芯片的适配、eBGP 控制面集群、FRR 协议升级等硬核项目，推动 Ethernet 架构在 AI 场景落地。 2. 广域网（WAN）研发：以“打造全球一流的广域网基础设施”为愿景，通过构建全球网络流量调度系统，打破云、边、端界限，实现云边一体、端网融合；参与广域网支撑与服务平台研发，从建设交付到巡检监控、从主动探测到流量Qos，守护亿万级流量“零故障”；参与下一代光网络设计研发，构建光网络动态路由算法及平台，为AI Scale Across构建大容量、高韧性的光网络底座；基于Agentic AI打造广域网智能经营平台，实现广域网质量、资源及成本自主优化。 3. 网络自动化研发：参与基础网络中海量运行状态与数据的实时监控与管控体系研发，确保高效异常发现定位与迅速执行止血修复，提供海量数据分析和查询，支持日常网络各种运营需求，沉淀自动化和智能化技术平台体系，和运营、架构等团队一起，保障阿里全球网络的稳定、高可靠。 4. DNS平台研发：以微服务、云原生、软硬结合的高性能解析技术为底座，构建支撑十万亿级日请求量的全自研管控与解析平台，为全球业务提供异地多活、毫秒级的极致高可用解析服务；深度参与全链路AIOPS智能运维、DNS运行态数字孪生、AI Native控制台、加密DNS用户态协议栈等硬核项目，通过“DNS+AI”推动DNS从传统基础设施向AI时代智能体资源寻址与服务发现平台演进。 5. 应用网络研发：以云原生网络和高性能转发技术为技术底座，深度参与 K8S 容器网络在智算场景下的演进、自研高性能高可用智算网络管控和公网访问平台；深度参与大规模集群流量调度、IPv6 协议全栈推动、管控面高并发治理等硬核项目，通过智算网络基础设施技术创新推动AI演进。

更新于 2026-05-11北京|杭州

业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra

社招2年以上

1. 立足AI Agent研发运维视角，贯穿整个技术栈，在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS，进行模型训练与推理的算力保障，并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性，适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题，并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力，响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练（SFT、RLHF/RLAIF 等）相关链路稳定性治理、规范建设：理解研发与优化 LLM + RL/HRF 相关训练框架，提升扩展性、稳定性与性能（吞吐、显存占用、收敛效率等）。结合分布式训练技术（如 tensor / pipeline / data parallel），优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量：建设训练平台的观测与运维体系，完善监控、告警、日志与故障排查工具；持续提升平台的稳定性、可调试性和可维护性，产出高质量技术文档与设计方案。

更新于 2025-12-15杭州