logo of tongyi

通义研究型实习生-视觉基本问题研究

实习兼职通义研究型实习生地点:北京 | 上海状态:招聘

任职要求


1、计算机及相关专业的博士或硕士研究生,对人工智能和视觉模型有充分兴趣;
2、优良的编程能力,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力;
3、具备良好的沟通表达能力和团队合作精神,有快速学习能力和钻研技术问题的耐心;
4、熟悉计算机视觉基础知识,有模型设计、训练优化或数据处理方面的经验;
5、加分项:
-有视觉通用大模型开发和优化相关研究和开发经验;
-产出过高水平的学术成果,如论文和专利;
-具有大规模分布式训练或高性能计算方面的经验。

工作职责


专注于视觉通用大模型的设计、优化与高效部署,具体职责包括:
1、研究高效的视觉通用大模型架构,应对复杂视觉任务,提升模型的准确性和泛化能力;
2、优化算子和通信机制,提升模型训练效率,降低硬件资源消耗,提高训练速度和资源利用率;
3、探索高效的训练策略,包括自适应学习率调整、正则化方法和优化算法选择,提升模型性能和稳定性;
4、设计和实现自动化评估方法,帮助研发团队及时发现模型不足,优化模型架构和训练策略;
5、研发数据过滤和标注相关模型,提高数据质量和可用性,为模型训练提供支持。
包括英文材料
Python+
C+++
设计模式+
OpenCV+
大模型+
相关职位

logo of aliyun
实习阿里云研究型实习

智能存储团队专注于利用前沿的AI技术(包括计算机视觉、自然语言处理、多模态算法和大语言模型等)对海量非结构化数据进行处理、检索、管理。为用户提供海量数据场景下的“数据处理、智能索引、知识建模、知识引导生成”的全流程闭环解决方案。具体工作内容包括: 1、针对视频、图片、文档、音频等多模态文件的解析与理解; 2、基于LLM、VLMs构建的多模态RAG以及Agent应用; 3、图片、视频等AIGC的创新解决方案。 如果您热衷于探索AI技术的边界,并希望将这些技术应用于实际场景中解决复杂问题,那么欢迎加入我们!

更新于 2025-07-03
logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1. 多模态联合建模 -研究构建音视频联合表征的编码方法。 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2. 多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 3. 技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-25
logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-23
logo of xiaohongshu
实习大模型

【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。