美团模型平台技术专家
任职要求
1、精通Java和Python语言,2年以上开发经验,熟悉深度学习框架(TensorFlow或PyTorch),熟悉RAG架构和检索技术,有性能优化经验; 2、熟悉分布式系统的设计和应用,对于分布式缓存、事务、消息、一致性等有一定的了解;…
工作职责
1、参与大模型应用平台的分析、设计和研发工作,能够独立完成核心系统的代码编写,并能够保证实现方案按照预期设计和质量完成; 2、主导技术难题攻关,推进模型训练、推理的降本增效,提升对抗效能; 3、积极参与技术分享,技术学习,能够深入了解相关工作原理,并通过技术的视角和手段解决问题,促进团队成员进步提升;
我们是中台技术部大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势。其中 QuickSilver 大模型生产部署平台负责调度公司内所有稠密类模型训练与推理资源,基于自建训推引擎,为公司所有大模型算法同学提供端到端一站式AI服务,包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力,持续赋能小红书社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 岗位职责: 1、负责大模型平台整体架构设计,构建高可用、高性能、可扩展的云原生体系。 2、主导大模型全流程 DevOps/MLOps 工程体系建设,打造端到端一站式平台能力。 3、推动训练框架、推理引擎、压缩工具链与平台深度集成,提升模型研发与发布效率。 4、负责平台核心模块研发(模型管理、任务管理、实验系统、评测与发布等)。 5、持续优化平台性能、稳定性与可观测性,支撑多模型、多业务的规模化生产需求。 6、跟踪并引入行业前沿 AI Infra 技术,推动平台能力和产品体验持续演进。 7、协同上下游团队进行必要的资源调度与自动化优化,共同提升算力效率。
1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。
负责阿里云全球网络的服务化平台研发,包括但不限于平台开发、模型/算法构建、海量数据分析处理等。 阿里云基础设施网络研发事业部,负责整个阿里巴巴网络基础设施的研发、建设和运维,始终坚持利用软/硬件技术及研究,针对业务需求研发网络解决方案,给公司业务提供强有力支持。广域网架构与研发团队,作为网络研发事业部核心团队之一,负责设计、研究、建设、运营面向全球的阿里巴巴广域网络,实现网络的高可靠、高可用、低成本,并不断提升用户体验。 具体岗位职责: 1. 负责阿里全球网络的数据分析、网络优化、资源规划等自动化和智能化系统研发,包括但不限于面向稳定性保障、质量优化和成本经营的算法、模型和平台研发 2. 负责阿里全球网络的质量探测与保障、网络监控、流量采集、Qos管控等系统设计研发 3. 负责阿里全球网络流量调度系统设计和研发,实现云边一体、端网融合、全球加速等目标
