夸克大模型数据工程实习生(多模态理解&搜索方向)
实习兼职日常实习生地点:杭州状态:招聘
任职要求
职位描述: ⭐️ 我们是谁: -事业群简介:我们是阿里智能信息事业群,专注于千问APP、夸克APP、AI眼镜等AI to C的业务,为2亿用户群体提供AI服务,你或你身边的小伙伴中可能就是我们的用户。我们是一支致力于在AI赛道长期发展、创新务实的团队,欢迎每一位有想法、对AI有热情的小伙伴和我们一起参与这个令人激动的过程。 -团队简介:我们是“千问相机”背后的多模搜索&问答算法团队,负责构建面向千问APP、夸克APP、AI眼镜等产品的统一多模态理解、搜索、问答技术体系,我们基于百亿级图文/视频库及海量用户真实场景需求,攻克多模态对齐与检索难题,探索大模型与搜索的深度融合,支撑全网搜索、智能拍搜、多模态RAG等关键场景。团队技术氛围浓厚,工作氛围开放包容,加入我们,与顶尖工程师共同成长! ⭐️ 你会参与到: 1.与算法工程师携手深入探索大模型的底层原理,能够更好地理解数据与模型之间的关系,为模型训练提供更具针对性的标注策略,加速模型的优化与迭代。 2.深度参与数据与模型的交互过程,理解…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们是谁: -事业群简介:我们是阿里智能信息事业群,专注于千问APP、夸克APP、AI眼镜等AI to C的业务,为2亿用户群体提供AI服务,你或你身边的小伙伴中可能就是我们的用户。我们是一支致力于在AI赛道长期发展、创新务实的团队,欢迎每一位有想法、对AI有热情的小伙伴和我们一起参与这个令人激动的过程。 -团队简介:我们是“千问相机”背后的多模搜索&问答算法团队,负责构建面向千问APP、夸克APP、AI眼镜等产品的统一多模态理解、搜索、问答技术体系,我们基于百亿级图文/视频库及海量用户真实场景需求,攻克多模态对齐与检索难题,探索大模型与搜索的深度融合,支撑全网搜索、智能拍搜、多模态RAG等关键场景。团队技术氛围浓厚,工作氛围开放包容,加入我们,与顶尖工程师共同成长! ⭐️ 你会参与到: 1.与算法工程师携手深入探索大模型的底层原理,能够更好地理解数据与模型之间的关系,为模型训练提供更具针对性的标注策略,加速模型的优化与迭代。 2.深度参与数据与模型的交互过程,理解不同领域知识之间的关联和相互影响,从而拓展自己的知识边界,培养跨学科的思维能力,能够从多个角度理解数据、理解知识、理解智能。 3.通过对数据作为人工智能核心驱动因素之一的深刻理解和实战参与,进一步提升快速学习的能力、创新思维激发,对个人未来的职业发展中提供更多的可能性,进一步提升未来在职场的竞争力。
包括英文材料
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位
实习大模型
本课题的研究目标是优化AI与人类的多模态交互体验,通过研发能够融合文本、视觉和语音等多种模态的自然交互机制,使AI系统能够通过理解图像内容、语音语调和情感等非文本信息增强交互效果。 研究将探索情境感知与个性化适应技术、多轮多模态交互中的意图理解与记忆保持能力,以及跨模态信息的整合与表达方式,使AI系统能够更好地理解用户通过不同感知通道传达的需求,提供视觉和语音层面的情感共鸣,并在长期多模态交互中不断适应用户偏好,实现更加流畅、高效且人性化的人机协作。
更新于 2025-08-22上海|北京|杭州
校招AIGC算法
目前主流的素材混剪能力主要依赖于素材的端内容理解、表征匹配、高光检测等能力帮助一键完成整个视频剪辑过程,偏模板化,且预定义较为死板,无法支持更丰富的信息量注入,以及用户自主输入剪辑要求。 本课题希望通过大语言模型的语义指令解析能力,开放基于可自定义prompt的视频编辑能力,通过指令分解、协同主题文案生成的方式,帮助完成带有故事感文案生成能力的视频剪辑功能。主要的技术难点包括: 1、多模态理解与表征:需要模型能够深入理解不同模态内容(视频片段、图像、音频)的语义和上下文; 2、时序理解与编辑:视频混剪需要理解时序信息,包括情节发展、节奏感、转场点等; 3、文案生成和改写:可自定义主题、风格的素材文案生成能力。
更新于 2026-03-24北京|杭州|上海
校招大模型
本课题的研究目标是研发更高效的预训练scaling效率,通过数据策略、模型结构设计(Dense, MoE, Long Context等)、初始化&优化器策略、学习范式的创新,深度理解模型的学习机制和评估方法,能够更精准的预测模型行为,并持续提升模型预训练从算力&数据到智能的转化效率。
更新于 2025-12-03北京|上海|杭州