顺丰大模型基础架构研发工程师
任职要求
1. 教育背景:
* 计算机科学、软件工程、人工智能等相关专业本科及以上学历。
2. 工作经验:
* 3年以上分布式系统、基础架构研发或大规模深度学习系统开发经验,具备扎实的系统设计和优化能力。
3. 技术能力:
* 熟悉大模型基础架构,包括大规模训练、推理的计算资源调度和优化策略。
* 熟悉主流大模型推理框架(如vLLM、TensorRT、ONNX Runtime、DeepSpeed、Triton等),能够根据需求进行定制化优化。
* 具有分布式系统开发经验,能独立设计和优化分布式计算框架,具备负载均衡、容错等系统调优能力。
* 深刻理解大模型推理中的性能瓶颈,能够使用各种技术手段(如模型压缩、量化、并行化等)提升推理性能。
4. 编程能力:
* 精通Python、C++等编程语言,具备…工作职责
岗位职责:
1. 大模型基础架构设计与研发:
* 负责大模型基础架构的设计、研发和优化,包括模型训练、推理过程中的高效计算资源调度、内存优化、网络传输优化等。
* 参与大模型推理服务的搭建与部署,确保系统的高可用性、高性能和可扩展性。
2. 推理优化与性能提升:
* 负责大模型推理过程中的性能优化,优化模型推理速度、内存消耗和计算资源使用。
* 根据不同的应用场景,优化推理算法和模型压缩技术,实现低延迟和高吞吐量的推理服务。
3. 主流推理框架的应用与定制:
* 熟悉并使用主流的大模型推理框架(如TensorRT、ONNX Runtime、DeepSpeed等),并能够根据需求进行定制化开发与优化。
* 结合实际业务需求,灵活调整推理框架的配置和参数,提升整体推理效率。
4. 分布式系统开发与优化:
* 设计并实现大模型推理在分布式系统中的高效调度与协同工作,确保大规模并发请求的处理能力。
* 优化分布式系统的通信、负载均衡、容错能力等,提升系统的整体稳定性和性能。
5. 系统调优与故障排查:
* 定期进行系统性能评估和瓶颈分析,提出系统优化方案并实施。
* 能够快速定位和解决系统性能瓶颈和推理过程中的各类问题,确保系统高效、稳定运行。
6. 技术创新与团队协作:
* 跟踪大模型基础架构领域的最新研究与技术进展,提出创新性的技术方案。
* 与团队成员密切合作,共同推动技术解决方案的实施与落地。-负责模型优化工程架构研发工作,涵盖预估架构、特征工程、模型训练、推理优化等; -优化模型核心推理/训练性能,负责自研推理&训练框架的演进迭代; -优化在线的高并发高可用服务架构以及离线的高负载大数据量的服务架构; -和团队一起攻克高性能、高并发、高可用性等各种不同技术场景下的技术挑战。
1、多模态推理工作流架构,设计并实现多阶段分布式推理工作流,支持视觉/文本/音频等多模态内容生成任务,负责大模型服务的端到端开发与部署,包括模型集成、API封装及异构资源调度优化; 2、AIOPS平台建设与协作提效,构建面向大模型业务的全生命周期AIOPS平台,覆盖开发、测试、监控全流程,建设标准化工具链与自动化流程,落地跨团队高效协作范式,加速业务迭代与成果转化; 3、Agent应用开发,支持TOC多模态AIGC任务的编排计算,利用Agent能力辅助用户进行复杂视频生成等。
团队介绍 -团队长期深耕AI算法研发、AI基础架构建设、AI服务应用打造,负责从AI算法研发、性能优化加速、工程服务化与云端部署、服务调度与资源优化、到服务管理与运维在内的完整AI落地运用流程,覆盖线上数据到模型训练、训练模型到线上服务的闭环。近期重点聚焦AIGC在公司内容团队和产研团队的使用,通过大模型的能力,持续推动爱奇艺在内容创作、生产、分发、以及用户体验上的创新、优质、高效、自动化与智能化。欢迎愿意长期深耕AI领域的同学加入我们。 工作职责 -承担AI工程服务化工作,将算法团队研发的AI能力初始原型进行服务化,落地成为业务团队线上稳定可用的AI应用; -参与AIGC平台的研发,涵盖基于生文/生图/生视频等大模型基础能力的运用、RAG/插件/记忆/智能体等高阶AI能力的研发、以及整个平台的运营与管理; -参与AI领域最新进展的技术调研、引入改造、原型设计与开发等。