logo of xiaohongshu

小红书图像增强大模型算法实习生

实习兼职多媒体技术地点:上海状态:招聘

任职要求


任职要求:
1. 硕士及以上学历,计算机、通信工程、软件工程、数学或相关专业优先;
2. 在图像、视频传统算法深度学习机器学习等人工智能领域有丰富经验, 具备扎实的图像处理算法基础, 有良好的数学功底;
3. 在图像超分辨、图像修复、图像去噪等领域有丰富的经验,擅长跟踪最前沿的学术界和工业界的人工智能技术;
4. 有利用图像算法深度学习联合编码器优化经验者优先;
5. 熟悉SD2.1/SD3.5/PixArt/FLUX等T2I模型及Wan等T2V模型,熟悉大模型基础原理,了解大模型微调技术,有diffusion生成式模型调优经验和落地经验…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


职位描述:
1. 负责视频/图片前处理修复增强算法的研究与落地,包括但不限于超分、降噪、去模糊、人像修复等;
2. 负责在视频/图片画质还原领域探索diffusion生成式模型的应用与落地;
包括英文材料
学历+
算法+
深度学习+
机器学习+
图像处理+
大模型+
Python+
还有更多 •••
相关职位

logo of liauto
实习算法

1. 负责音频、语音等算法的处理和实现; 2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地; 3. 负责多模态融合算法、多模态大语言模型的研发与落地。

北京
logo of bytedance
实习A43839

团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 课题介绍:生活服务行业在数字化转型中面临效率提升和成本优化的迫切需求,传统商家依赖销售老师处理商品管理、订单咨询、营销推广等环节,存在响应速度慢、标准化程度低、人力成本高等痛点。基于大语言模型(LLM)的对话系统具备自然语言理解、多任务处理、知识推理等能力,可以为商家提供智能客服、流程自动化、数据分析等场景的解决方案。然而,现有通用模型在垂直领域应用中仍存在领域知识匮乏、复杂任务执行能力不足、多模态交互受限等问题,需结合RAG、Function Calling、多模态等技术进行针对性优化。 课题挑战/必要性: 生活服务行业规则多变(如季节性促销、政策调整),需设计低延迟的领域知识库动态更新机制。另外,商家需求多样,对Agent工具调用、动态规划与异常处理能力提出了很高的要求。同时,在交互中期望能够实现语音、图像、文本等多模态信息的内容理解能力与自然交互,解决语义一致性的难题。 课题内容: 1、RAG在垂直领域的优化:构建生活服务行业知识图谱与动态检索库,研究检索增强生成中的上下文压缩技术与深度思考技术,提升答案准确性; 2、Function Calling与业务流程自动化:设计面向商家的工具库,支持自然语言指令到工具调用的精准映射,研究强化学习(RL)在工具调用领域的应用提升模型对领域外工具的识别泛化能力; 3、对话Agent的决策与协作能力:研究基于强化学习(RL)优化Agent的任务规划能力,研究多Agent协作机制; 4、多模态交互与生成:深入研究图像内容理解,开发能够与商家自然沟通的多模态交互与生成系统。

更新于 2025-05-26北京
logo of baidu
实习ACG

-参与Qianfan-VL多模态模型训练工作,负责图像、视频与文本模态的对齐和指令微调数据构造与清洗,模型实验 -构建优质代码数据语料库,通过检索生成结合执行环境自动验证的方式构造合成数据,通过持续预训练、强化学习等方式训练精专代码大模型 -跟进并探索前沿的模型范式,研究样本质量/数量对模型效果的影响,摸索更高效、低成本的蒸馏方案,研究RL在特定需求场景下的适用性 -深刻理解模型训练、推理的性能瓶颈,通过底层优化提升训练、推理性能 -研究方向(新增数据策略方向): 多模态大模型预训练/后训练数据清洗与合成 多模态推理场景强化 多模态教育、解题场景增强 复杂指令遵循 Agent场景数据构建 复杂场景下的代码提升

更新于 2025-08-21北京|上海
logo of dewu
实习技术类

1. 参与多模态理解与生成大模型、VLA大模型所需的数据清洗和自动标注系统开发,确保各类型/模态数据的质量与多样性,探索高效的数据增强和数据合成方法; 2. 机器人领域大模型的数据采集设计、数据管理、数据质量评测 3. 机器人领域大模型的算法训练,保证模型在多任务、多机器本体的成功应用,机器人大模型训练统一框架的设计 4. 复现并优化主流具身智能范式:如 Diffusion Policy、RT-2、Octo、GR00T、π0、π0.5、πRL等; 5. 将训练好的VLA/VLN模型部署至真实机器人平台

更新于 2025-11-26杭州