夸克多模态交互算法实习生(多模态大模型方向)
任职要求
1.学习与研究能力:对 AI 技术有浓厚兴趣,具备快速学习能力和自主探索精神;有个人项目、开源贡献或相关竞赛经历者优先。 2.技术基础:具备扎实的编程基础,熟练掌握 Python 或 C/C++;了解 PyTorch 等深度学习框架;对机器学习…
工作职责
1.前沿技术探索与落地:参与多模态理解、生成式模型、强化学习等前沿技术的应用研究,协助进行多模态模型的数据建设、指令微调、偏好对齐等工作,协助团队进行技术验证和原型开发。 2.多模态 Agent 能力探索:支持多模态交互的基础能力研发,探索多模态 RAG、视觉 CoT、多模态 Agent 等进阶能力;参与 GUI/游戏等虚拟世界的通用多模态 Agent 项目的研究工作。 3.数据建设与评测体系:参与数据质量评估、标注标准制定及自动化数据 Pipeline 的搭建与维护,参与图像/视频理解评估、世界模型评估方法的实验。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动ByteDance Research专注于人工智能领域的前沿技术研究,涵盖了机器翻译、视频理解基础模型、机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。 1、面向多模态人机交互,研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术,发表高水平论文和申请专利; 2、探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用,参与具身智能算法和应用迭代。
我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。与产品、工程团队合作,推动技术从研发到上线的全流程落地。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。
我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。