小红书图像增强大模型算法实习生
任职要求
任职要求: 1. 硕士及以上学历,计算机、通信工程、软件工程、数学或相关专业优先; 2. 在图像、视频传统算法,深度学习、机器学习等人工智能领域有丰富经验, 具备扎实的图像处理算法基础, 有良好的数学功底; 3. 在图像超分辨、图像修复、图像去噪等领域有丰富的经验,擅长跟踪最前沿的学术界和工业界的人工智能技术; 4. 有利用图像算法和深度学习联合编码器优化经验者优先; 5. 熟悉SD2.1/SD3.5/PixArt/FLUX等T2I模型及Wan等T2V模型,熟悉大模型基础原理,了解大模型微调技术,有diffusion生成式模型调优经验和落地经验…
工作职责
职位描述: 1. 负责视频/图片前处理修复增强算法的研究与落地,包括但不限于超分、降噪、去模糊、人像修复等; 2. 负责在视频/图片画质还原领域探索diffusion生成式模型的应用与落地;
团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 课题介绍:生活服务行业在数字化转型中面临效率提升和成本优化的迫切需求,传统商家依赖销售老师处理商品管理、订单咨询、营销推广等环节,存在响应速度慢、标准化程度低、人力成本高等痛点。基于大语言模型(LLM)的对话系统具备自然语言理解、多任务处理、知识推理等能力,可以为商家提供智能客服、流程自动化、数据分析等场景的解决方案。然而,现有通用模型在垂直领域应用中仍存在领域知识匮乏、复杂任务执行能力不足、多模态交互受限等问题,需结合RAG、Function Calling、多模态等技术进行针对性优化。 课题挑战/必要性: 生活服务行业规则多变(如季节性促销、政策调整),需设计低延迟的领域知识库动态更新机制。另外,商家需求多样,对Agent工具调用、动态规划与异常处理能力提出了很高的要求。同时,在交互中期望能够实现语音、图像、文本等多模态信息的内容理解能力与自然交互,解决语义一致性的难题。 课题内容: 1、RAG在垂直领域的优化:构建生活服务行业知识图谱与动态检索库,研究检索增强生成中的上下文压缩技术与深度思考技术,提升答案准确性; 2、Function Calling与业务流程自动化:设计面向商家的工具库,支持自然语言指令到工具调用的精准映射,研究强化学习(RL)在工具调用领域的应用提升模型对领域外工具的识别泛化能力; 3、对话Agent的决策与协作能力:研究基于强化学习(RL)优化Agent的任务规划能力,研究多Agent协作机制; 4、多模态交互与生成:深入研究图像内容理解,开发能够与商家自然沟通的多模态交互与生成系统。
-参与Qianfan-VL多模态模型训练工作,负责图像、视频与文本模态的对齐和指令微调数据构造与清洗,模型实验 -构建优质代码数据语料库,通过检索生成结合执行环境自动验证的方式构造合成数据,通过持续预训练、强化学习等方式训练精专代码大模型 -跟进并探索前沿的模型范式,研究样本质量/数量对模型效果的影响,摸索更高效、低成本的蒸馏方案,研究RL在特定需求场景下的适用性 -深刻理解模型训练、推理的性能瓶颈,通过底层优化提升训练、推理性能 -研究方向(新增数据策略方向): 多模态大模型预训练/后训练数据清洗与合成 多模态推理场景强化 多模态教育、解题场景增强 复杂指令遵循 Agent场景数据构建 复杂场景下的代码提升
