阿里巴巴淘天算法技术-相关性多模态大模型算法工程师-北京/杭州*
任职要求
基本要求: 1. 计算机、人工智能、电子信息、数学等相关专业硕士及以上学历,博士优先;3年以上相关工作经验。 2. 具备扎实的机器学习/深度学习理论基础,精通Python编程,熟练使用PyTorch/TensorFlow等至少一种深度学习框架。 3. 对大语言模型(LLM)和多模态大模型(MLLM)有深入理解,熟悉Transformer、Attention机制等核心原理,具备LLM/MLLM(如LLaVA, Qwen-VL, GPT-4V等)的Finetune、Prompt Engineering、RAG(检索增强生成)等方面的实际项目经验。 4. 在以下至少一个领域有深厚的实践经验:搜索、推荐、自然语言处理(NLP)、计算机视觉(CV)。 5. 具备优…
工作职责
淘宝文本搜索算法团队是淘天集团内专注于创新和优化搜索技术的核心团队。我们的任务是通过持续研发高效、精准的搜索算法,以提升用户的在线购物体验和满意度,进而推动电商平台的商业成功。这一关键角色中,您将参与淘宝搜索功能的核心算法研究,特别是专注于搜索相关性领域和AI搜创新领域。该职位要求理解搜索引擎的工作原理,在深度语义相关性模型、大语言模型、多模态技术等技术方面有突出贡献。作为团队的核心成员,您将不仅要在您的直接工作领域推动技术突破,还要与其他方向的团队(包括召回、排序、机制等)进行全链路联动,共同推进搜索算法的整体优化。 1. 核心模型研发与创新: 负责淘宝主搜的核心算法研发,主导设计和优化面向电商场景的相关性大模型。重点投入Agentic Search、多模态(文图、视频)相关性、AI生成式搜索等前沿方向,从模型层面根本性地提升搜索相关性、用户体验和商业效率。 2. 电商知识资产构建: 主导构建电商领域的高质量多模态数据飞轮。通过知识库建设、主动学习、数据挖掘和智能标注等手段,持续迭代和优化数据质量,为大模型的训练和迭代提供核心“燃料”,沉淀公司级的电商知识数据资产。 3. 用户体验洞察与度量: 深入理解和洞察电商搜索场景下的用户意图与行为模式,建立并完善一套科学的、数据驱动的搜索体验分析与评估方法论。以量化指标和用户反馈指导模型迭代方向,确保技术创新最终服务于用户价值。 4. 前沿技术探索与应用: 密切追踪LLM(大语言模型)、MLLM(多模态大模型)、NLP、AIGC等领域的最新技术进展。快速进行技术预研、验证,并将其创造性地应用于电商搜索业务中,解决实际问题。在应用基础上进行技术创新,鼓励发表高水平论文、申请技术专利,构建团队在行业内的技术影响力。 我们提供 1. 高空间的舞台: 真实、海量、复杂且高价值的业务场景,让你的技术才能得到最大程度的发挥。 2. 前沿的技术挑战: 直接参与定义下一代AI搜索,与行业顶尖人才共同攻克最具挑战性的技术难题。 3. 充足的资源支持: 丰富的计算资源与数据资产,以及鼓励创新和试错的文化氛围。 4. 清晰的成长路径: 完善的职业发展体系和技术晋升通道,支持个人在技术深度和业务广度上的持续成长。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
中台稠密引擎组,是小红书负责建设通用深度学习训练推理引擎的团队,面向全公司LLM、多模态LLM、SD、传统CV&NLP等稠密计算型模型训练与推理的业务场景,打造高效、易用、业界领先的训练与推理引擎,为小红书社区、商业化、安全等众多业务方向提供先进的引擎能力,支撑业务持续提升训练推理效率、模型迭代效率与算法研发效率。 1、参与设计和实现深度学习后训练及微调的前沿算法(包括但不限于RFT、RLHF等),以适应多样化的业务场景; 2、结合业务数据和场景,评估选择最适合的微调算法,以支撑业务大语言模型(LLM)微调指标的提升; 3、与数据团队紧密合作,深入理解数据特性,参与设计实现数据提质算法引擎工具,产出高质量数据集提升模型微调效果; 4、与公司内各算法团队深度合作,参与或负责大语言模型、多模态大模型等业务场景的后训练端到端效果提升及落地; 5、密切关注业界 LLM 微调算法和数据提质领域的前沿论文,并整合新技术和算法到训练引擎中,提升框架的领先性;
岗位职责: 1、负责 AI Agent 系统的设计、开发和优化、开发和完善基于大语言模型 (LLM) 的智能体系统,提升 Agent 的自主决策和任务执行能力; 2、负责生成式大模型指令意图理解相关工作,整体提升大模型的多轮对话指令理解能力和性能; 3、设计并实现 Agent 的工具使用接口,实现与各类外部系统和 API 的集成编排; 4、负责大模型在检索、推荐方面的系统设计实现和优化,探索Agent、RAG、领域模型调优等相关技术在业务场景落地; 5、具备模型知识、幻觉机制探究,提升模型知识水平、降低模型幻觉率; 6、能够基于开源模型,设计和开发算法,对模型进行微调,优化其参数和结构,以提高模型的泛化能力和准确性; 7、深入调研AI领域相关的前沿技术,跟踪业内大模型领域的最新进展,并寻求将最新技术应用到产品的可能性。