小红书多模态/视觉大模型理解和生成
任职要求
1. 熟练掌握深度学习、机器学习、计算机视觉的基础知识,熟悉常用模型的原理、特点及应用,能够结合需要解决的问题选择适当的模型,并设计合理的技术方案; 2. 良好的科研能力,有成果发表在ICLR、CVPR、ICCV、ECCV、NeurIPS、ICML、TPAMI等国际顶级会议、期刊者优先; 3. 动手实现能力强,代码基本功扎实,精通基于Python的算法开发;熟练掌握pytorch/tensorflow/mxnet等至少一项深度学习框架; 5. 能够获得导师许可同时可以保证4个月以上的实习。
工作职责
我们是小红书应用算法部/内容理解算法组,目前专注于内容理解场景的技术落地和产品预研。我们希望寻求优秀在读硕士生/博士生共同突破多模态/视觉大模型理解和生成算法在多模态内容理解行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 计算机视觉:解决视觉理解中指代关系特征归一化和识别研究; 2. 多模态表征:多源数据中多模态表征技术,包括局部/全局匹配、视频表征、多模态表征、对抗性和泛化性等问题。 3. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括强化微调、逻辑推理、多模态理解、幻觉消除及评价机制等。 我们希望在一个和多个方向做出有意义的、创新性的工作。
我们是小红书应用算法部/内容理解算法组,目前专注于内容理解场景的技术落地和产品预研。我们希望寻求优秀在读硕士生/博士生共同突破多模态/视觉大模型理解和生成算法在多模态内容理解行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。岗位职责包括: 1、负责内容安全相关的自然语言处理核心算法的研究与开发,如文本分类、情感分析、长文本语义理解、舆情分析等,构建并优化NLP模型,提升模型性能与快速对抗变异风险能力,对于涉z、色情、违规等内容进行全方位的识别,构建业界领先的内容识别能力; 2、跟踪NLP领域前沿技术与研究成果,探索新技术在实际业务中的应用,如大模型微调、加速等,针对不同业务形态,提出创新性的NLP解决方案; 3、与业务部门紧密合作,了解业务需求,推动内容安全解决方案在公司各应用场景的落地。
视觉方向 1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。 5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。 语音方向 1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。 3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。 4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。 5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。 6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。 全模态融合 大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。 1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。
1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4..探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。