logo of sensetime

商汤多模态算法实习生(北京/深圳)

实习兼职算法研究地点:北京 | 深圳状态:招聘

任职要求


1. 计算机、电子信息、数学等相关专业本科及以上学历;
2. 熟练使用PythonC/C++,掌握PyTorchTensorflow深度学习框架之一;
3. 熟悉多模态大模型算法,具有多模态大模型的研究经验,对多模态算法的研究和落地具有强烈的热情;
4. 在CVPR/ICCV/EC…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 面向车舱场景,参与端侧VLM、MLLM等多模态算法的研究工作,探索车舱多模态大模型/智能车舱更好的解决方案,帮助产品线在行业内建立技术和数据优势;
2. 构建和维护相关研究方向的代码框架、数据基础,紧跟学术前沿,输出创新研究成果;
包括英文材料
学历+
Python+
C+
C+++
PyTorch+
TensorFlow+
深度学习+
还有更多 •••
相关职位

logo of sensetime
校招算法研究

1. 面向车舱场景,参与端侧VLM、MLLM等多模态算法的研究工作,探索车舱多模态大模型/智能车舱更好的解决方案,帮助产品线在行业内建立技术和数据优势; 2. 构建和维护相关研究方向的代码框架、数据基础,紧跟学术前沿,输出创新研究成果;

更新于 2026-01-15北京|上海|深圳
logo of kuaishou
实习D1915

1、负责生成式AI方向技术研发,基于SD和GAN等研发行业领先的移动端视频实时风格化生成技术; 2、负责模型框架设计与训练,以及移动端实时模型的稳定性、可靠性、轻量化等方向的研究,包括但不限于图像和视频特效生成。

更新于 2025-12-10北京
logo of bytedance
实习A38538

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-03-05北京
logo of bytedance
实习A241186

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-03-05上海