通义通义实验室-技术专家-ModelScope魔搭
任职要求
1. 硕士及以上学位,计算机科学或相关领域专业。 3年以上相关领域开发经验。具备大数据平台,机器学习平台,云服务平台,大模型训练推理等领域相关经验者优先。 2. 扎实的编程能力,精通 Java、Python、Go、C++ 等编程语言。熟练掌握Pytorch等常用深度学习框架,对Hu…
工作职责
团队介绍: ModelScope魔搭社区是中国最具影响力和最活跃的AI开源社区。秉承“模型即服务”的理念,魔搭围绕平台上开源的模型和数据集,针对各领域模型提供包括模型获取 、推理、 训练、评测、应用等全生命周期所需的开源技术组件。广大开发者基于魔搭的开源技术生态,以及社区站点和平台的支持,能迅速快捷的实现从模型到实际AI应用落地。 魔搭团队负责魔搭开源技术生态的研发,以及魔搭站点(modelscope.cn)与后端服务的整体建设工作。同时负责在快速迭代的AI领域,架接模型贡献者和模型使用者之间的桥梁。支持新模型,新应用的迅速接入,确保前沿模型在魔搭生态里的迅速落地。 职位描述: 1. 魔搭平台模型,数据集,创空间等功能研发以及后台服务的管理。 2. 通过与底层云基座打通,打造魔搭服务平台自动弹性和水平扩展能力,为千万级别的开发者用户提供稳定的服务,实现高效的计算资源使用。 3. 围绕魔搭的模型生态,开发各领域模型(尤其是大模型以及AIGC领域模型)实现应用落地所需的相关工具链。支持模型从ckpt落地为实际应用所需的自动化部署,评测等一系列工程链路。 4. 撰写技术设计文档以及用户文档,包括操作手册和最佳实践指南等。
团队介绍: ModelScope魔搭社区是中国最具影响力和最活跃的AI开源社区。秉承“模型即服务”的理念,魔搭围绕平台上开源的模型和数据集,针对各领域模型提供包括了包括模型获取 、推理、 训练、评测、应用等全生命周期所需的开源技术组件。广大开发者基于魔搭的开源技术生态,以及社区站点和平台的支持,能迅速快捷的实现从模型到实际AI应用落地。 魔搭团队负责魔搭开源技术生态的研发,以及魔搭站点(modelscope.cn)与后端服务的整体建设工作。同时负责在快速迭代的AI领域,架接模型贡献者和模型使用者之间的桥梁。支持新模型,新应用的迅速接入,确保前沿模型在魔搭生态里的迅速落地。 职位描述: 本职位为技术产品岗,主体负责ModelScope魔搭技术生态的产品设计,包括魔搭开源代码库以及魔搭站点和服务。候选人将与魔搭工程技术团队、技术运营团队、算法团队等紧密合作,共同把握魔搭技术发展发向,确保魔搭技术生态整体健康发展。在这个过程中,候选人将深入洞察开发者需求,并结合横向竞品分析等方式,围绕开发者社区核心价值,设计相关产品功能。 候选人的日常工作,包括与技术团队共同设计魔搭开源代码库中,面对用户的接口,确保接口的易用性和自洽;梳理社区站点功能,设计后转化成具体产品PRD文档,进行工作项拆解,与工程技术团队对齐研发和上线节奏;明确平台与底层云基座之间的交互协作,确保云平台对于魔搭的支撑。
团队介绍: ModelScope魔搭社区是中国最具影响力和最活跃的AI开源社区。秉承“模型即服务”的理念,魔搭围绕平台上开源的模型和数据集,针对各领域模型提供包括模型获取 、推理、 训练、评测、应用等全生命周期所需的开源技术组件。广大开发者基于魔搭的开源技术生态,以及社区站点和平台的支持,能迅速快捷地实现从模型到实际AI应用落地。 魔搭团队负责魔搭开源技术生态的研发,以及魔搭站点(modelscope.cn)与后端服务的整体建设工作。同时负责在快速迭代的AI领域,架接模型贡献者和模型使用者之间的桥梁。支持新模型,新应用的迅速接入,确保前沿模型在魔搭生态里的迅速落地。 职位描述: 1. 负责魔搭社区(modelscope.cn 以及 modelscoope.ai)的站点多端建设,围绕各类 AI 开源场景、研发能力打磨平台开发者和泛 AI 用户的体验。 2. 负责新兴 AI 应用的开源开放建设,从基础对话到多模态场景和智能体、从python工具链到各类可视化应用,协同内外模型开源和社区能力打造标杆范例。 3. 实现高效的前端服务与后端服务之间的交互。围绕模型能力为核心,建设新一代的前端交互体验。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。