阿里巴巴淘宝平台事业部-多模态算法工程师(VLLM/CV/LLM)-商家智能服务
任职要求
1. 计算机科学相关专业(人工智能、计算机科学、电子信息工程、数学等)硕士及以上学历; 2. 有智能客服、多模态大模型、CV等背景和工作经验的,或在相关领域国际顶会发表过论文者优先; 3. 扎实的技术背景:对基于图像、视频、语音、文本等模态内容的各类算法算法有一定的理解,包括不限于图像/视频理解、图片分类、 检测、分割、OCR、图像视频生成等;了解VLLM/Vi…
工作职责
1. 负责将多模态大模型技术整合到小蜜智能问答系统中,不断提升系统的智能化水平和用户体验; 2. 研究并应用最新的多模态理解技术,如图像识别、自然语言处理和语音识别等,以实现系统对各种类型输入的处理能力,或将图像生成能力用于离线知识生产和实时问答; 3. 深入挖掘商品的图片、视频、文本介绍等各个模态中包含的有价值信息,理解并提炼商品问答知识; 4. 与数据科学团队合作,设计和实施模型训练策略,针对特定领域,进行多模态模型prompt设计和调优; 5. 深入跟踪调研多模态/NLP/CV等方向的前沿技术相关内容,包括文生图、图生文等。
1、负责优化小红书的多模态内容理解大模型算法,利用LLM、VLLM、Embedding、CV以及NLP相关能力,解决社区/大商业中笔记、评论、账号等多体裁的审核问题;优化小红书综合机审大模型; 2、负责包括但不限于预训练、SFT、RL、多模态表征、Agent搭建、AutoPE、RAG等,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取审核业务线上收益; 3、紧密关注相关领域业界的最新进展,通过LLM/MLLM不断优化生态业务的机审能力,提高机审风险覆盖度和风险召回能力。建立并优化生态场景下的内容理解特征体系; 4、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,探索其在小红书审核业务中的落地方案。
1、负责优化小红书的多模态内容理解大模型算法,利用LLM、VLLM、Embedding、CV以及NLP相关能力,解决社区/大商业中笔记、评论、账号等多体裁的审核问题;优化小红书综合机审大模型; 2、负责包括但不限于预训练、SFT、RL、多模态表征、Agent搭建、AutoPE、RAG等,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取审核业务线上收益; 3、紧密关注相关领域业界的最新进展,通过LLM/MLLM不断优化生态业务的机审能力,提高机审风险覆盖度和风险召回能力。建立并优化生态场景下的内容理解特征体系; 4、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,探索其在小红书审核业务中的落地方案。
1. 前沿算法研发:负责探索和研发最前沿的视觉语言大模型(VLM)算法,跟进并掌握领域内的最新技术动态(如InternVL Qwen-VL等)。 2. 模型训练与优化:参与或主导公司VLM模型的训练,包括但不限于数据处理、CPT、指令微调(SFT)、以及基于人类反馈的强化学习(RLHF)等全流程算法的研发与优化。 3. 多模态能力融合:致力于提升模型在图像、视频等多种视觉模态上的理解、推理和生成能力,实现视觉信息与语言能力的深度融合。 4. 应用场景落地:推动VLM技术在公司具体业务场的应用落地,解决实际业务中的挑战。 性能优化与部署:负责模型的性能优化,包括模型剪枝、量化、蒸馏等,并配合工程团队将模型高效部署到云端或嵌入式设备,实现低延迟、高吞吐的推理服务。
团队介绍:Data-电商-平台治理-内容理解基础算法团队,主要 focus 在 NLP/CV/多模态的大模型算法和基础算法研发上,旨在沉淀CV/NLP/多模态方向上的业界SOTA模型,针对电商数据优化算法,支持模型训练和推理加速,提升电商业务效果。 1、模型压缩和推理框架开发:推理加速的研究,包括但不限于模型量化、剪枝、TensorRT、TensorRT-LLM推理优化等; 2、梳理&沉淀算法库:抽象算法接口,提高算法/预训练模型的复用率,同时优化数据采集和模型训练的流程,提升效率; 3、技术输出:定期分享训练和推理优化技术,赋能业务,沉淀专利和论文。