小红书AI推理服务架构工程师-创作发布
任职要求
1. 对各种AI算法有一定的了解,有丰富的算法工程集成,性能优化和落地经验; 2. 熟悉CUDA编程、CUDNN,TensorRT等工具,有丰富的服务端性能优化经验者优先; 3. 深入了解NCNN、MNN、TNN、TVM、VLLM框架中的一种或多种,熟悉汇编优化和移动端GPU优化,有多类模型的优化经验者优先; 4. 有扎实的编程基础、良好的编程风格和工作习惯,实际动手能力强,具有ACMICPC, NOI/IOI比赛获奖者优先 ; 5. 有良好的沟通表达能力和团队精神,有很好的通过技术解决真实问题创造业务价值的意愿。
工作职责
小红书智创技术团队负责用户发布工具、增长&商业化业务等多个公司重要业务场景里的创作能力的支持,技术范围广,技术栈深,对技术有着极高的追求。 工作职责: 1. 负责端侧的AI算法的部署和工程化落地,提升端侧的智能化水平,并通过端侧推理架构的优化,提升用户的使用体验; 2. 负责服务端的Diffusion、LLM、VLLM等先进算法的部署和性能优化,提升推理效率,降低成本; 3. 打造具有业界一流水平的大模型推理技术能力,并通过开源共建等各类形式,形成在业界的广泛技术影响力。
1、负责小红书内容发布侧后端开发,方向包括但不限于:核心发布链路、创作工具、创作者服务等 2、基于对业务的理解,进行系统选型、设计、编码,为系统长期的稳定性及可维护性负责 3、设计合理的架构,保障数据一致性、稳定性、研发效率 4、参与开发人员codereview工作,并能从语言和框架层面提供性能优化、安全性建议
1、负责小红书内容发布侧后端开发,方向包括但不限于:核心发布链路、创作工具、创作者服务等; 2、基于对业务的理解,进行系统选型、设计、编码,为系统长期的稳定性及可维护性负责; 3、设计合理的架构,保障数据一致性、稳定性、研发效率; 4、参与开发人员codereview工作,并能从语言和框架层面提供性能优化、安全性建议。
1、负责AIGC创作平台开发,主导海外AIGC业务交付链路的设计和实现,包括但不限于:模型调试、模型推理服务、AI自动工程化、智能运维与流量治理等,提升业务交付效率、提升线上资源利用率; 2、负责高质量的设计和编码及系统稳定性优化,参与系统瓶颈问题专项治理,解决系统高并发、大数据等问题,提高系统稳定性; 3、深入业务场景理解业务交付痛点,通过技术解决方案优化解决业务痛点问题; 4、参与新技术的调研和落地。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于深度参与大模型训练系统优化与高性能推理服务构建,聚焦于算法与系统协同设计,推动大模型在效率、稳定性与成本上的持续突破。若你对以下任意一个方向感兴趣均欢迎投递: 1. 模型训练优化:在不影响模型性能前提下提高各尺寸模型在大规模分布式预训练训练的 MFU,以支持模型规模,数据规模及支持模态的持续 scaling;持续进行RL训练框架的开发和优化,提高训练推理协同效率和大规模训练下的稳定性及可扩展性;同时与网络/服务器/存储等相关运维团队共同保障训练过程中的有效训练时间占比,保障模型的按期交付。 2. 模型推理优化:高效以及成本最优的推理服务,让AI进一步实现普惠。团队推理优化的工作目前主要关注高并发serving(Qwen Chat以及API服务)下的算法侧的探索与研发,主要针对Qwen系列模型,Chat模型、VL模型、Omni模型等。