
商汤CV算法研究实习生
任职要求
任职资格: 1、扎实的计算机视觉和工程技能基础 2、独立分析和解决问题的能力,良好的沟通能力 3、基本的算法设计和实现能力,熟悉Python/C++/CUDA编程,掌握PyTorch/TensorFlow/MXNet等框架 4、实习时间在三个月以上 5、在相关领域顶级期刊或会议发表过论文优先 6、有三维视觉或计算机图形学研究经历优先 7、表现出色视部门需求有机会转正
工作职责
1. 辅助开展计算机视觉和深度学习算法的开发与性能提升,研究的问题包括但不限于:2D/3D物体检测与跟踪、物体6D姿态估计、人体姿态估计、物体人体在线重建、人体运动捕捉、语义分割、动态场景重建、视觉定位与导航等。 2. 紧跟学术前沿,开展高水平和创新性的研究,保持算法在工业界和学术界的领先,参与顶会论文投稿及专利申请。 3. 负责开发管理研究所需要的工具以及基础设施。 岗位优势: 1. 介于工业界与学术界之间,用前沿研究解决实际问题 2. 拥有丰富的数据与计算资源 3. 与科研和工程经验丰富的同事共事,有机会得到合作教授的科研指导

1. 辅助开展计算机视觉和深度学习算法的开发与性能提升,研究的问题包括但不限于:2D/3D物体检测与跟踪、物体6D姿态估计、人体姿态估计、物体人体在线重建、人体运动捕捉、语义分割、动态场景重建、视觉定位与导航等。 2. 紧跟学术前沿,开展高水平和创新性的研究,保持算法在工业界和学术界的领先,参与顶会论文投稿及专利申请。 3. 负责开发管理研究所需要的工具以及基础设施。 岗位优势: 1. 介于工业界与学术界之间,用前沿研究解决实际问题 2. 拥有丰富的数据与计算资源 3. 与科研和工程经验丰富的同事共事,有机会得到合作教授的科研指导
团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 课题介绍:大规模推荐系统正在越来越多的应用到短视频、文本社区、图像等产品上,模态信息在推荐系统中的作用也越来越大。字节实践中发现模态信息能够很好的作为泛化特征支持推荐等业务场景,端到端的超大规模多模态推荐系统的研究具有非常大的想象空间。期望在算法和工程CoDesign基础上,对多模态Cotrain、7B/13B大规模参数模型、更长序列端到端等方向进一步进行探索。工程上研究方向包括多模态样本的表征、基于Pytorch框架的高性能多模态推理引擎、高性能多模态训练框架的构建、异构硬件在多模态推荐系统上的应用;算法上的研究方向包括设计合理的推荐广告和多模态Cotrain结构、Sparse MOE、Memory Network、混合精度等。 1、AML负责给字节跳动提供大规模机器学习的算力,算法团队负责探索算法和系统的CoDesign,对推荐广告模型进行Deep & Wider的超大规模复杂化,例如7Billion/13Billion复杂化模型Scaling Law探索、长序列端到端入图建模、生成式、多模态Cotrain等; 2、参与抖音、今日头条等产品中的机器学习算法应用与优化,包括推荐、广告、多模态等需要利用大量算力的地方; 3、和工程团队密切配合,探索新的架构下新的算法。
团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 课题介绍:大规模推荐系统正在越来越多的应用到短视频、文本社区、图像等产品上,模态信息在推荐系统中的作用也越来越大。字节实践中发现模态信息能够很好的作为泛化特征支持推荐等业务场景,端到端的超大规模多模态推荐系统的研究具有非常大的想象空间。期望在算法和工程CoDesign基础上,对多模态Cotrain、7B/13B大规模参数模型、更长序列端到端等方向进一步进行探索。工程上研究方向包括多模态样本的表征、基于Pytorch框架的高性能多模态推理引擎、高性能多模态训练框架的构建、异构硬件在多模态推荐系统上的应用;算法上的研究方向包括设计合理的推荐广告和多模态Cotrain结构、Sparse MOE、Memory Network、混合精度等。 1、AML负责给字节跳动提供大规模机器学习的算力,算法团队负责探索算法和系统的CoDesign,对推荐广告模型进行Deep & Wider的超大规模复杂化,例如7Billion/13Billion复杂化模型Scaling Law探索、长序列端到端入图建模、生成式、多模态Cotrain等; 2、参与抖音、今日头条等产品中的机器学习算法应用与优化,包括推荐、广告、多模态等需要利用大量算力的地方; 3、和工程团队密切配合,探索新的架构下新的算法。
ByteIntern:面向2025届毕业生(2024年9月-2025年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:视频架构是字节跳动的视频中台部门,支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展,目标成为业界多媒体解决方案领先者,构建极致的视频技术/产品服务体验。 1、支持研发基于大模型的多媒体算法,包括但是不限于视频理解,质量评价、视频处理和增强以及视频压缩; 2、支持多模态大模型相关算法的性能优化以及加速; 3、支持多模态大模型的算法在多媒体业务中落地,在图文、点播、直播等业务中发掘应用场景; 4、支持多模态大模型相关的前沿学术研究,在国际顶级会议与期刊中发表成果。