logo of youku

优酷算法工程师-多模态理解

实习兼职虎鲸文娱2026届实习生招聘地点:杭州状态:招聘

任职要求


1、在多模态理解、自然语言处理计算机视觉等方向有相关项目研究经验,对其中某一领域的算法有深入的研究和应用
2、掌握大语言模型、多模态大模型深度学习等基础知识,熟悉大模型训练、加速框架,熟悉传统自然语言处理计算机视觉领域的主流模型
3、对视频智能生产有兴趣,能够建立创新的技术思路,不拘泥于现有的技术能力
4、在相关方向知名国际会议发表过论文者优先

工作职责


应用多模态理解、自然语言处理、计算机视觉等算法技术,对优酷站内海量长/短视频进行内容理解,紧跟前沿研究成果,参与视频智能生产的核心算法能力建设及业务应用落地
具体职责包括但不限于:
1、负责视频智能生产中需要的文娱领域化、任务专有化的大语言模型/多模态大模型的训练及优化,包括但不限于监督微调、偏好对齐、视频理解、图文生成等领域
2、基于业界最新前沿工作,在图片及视频检索、视频内容创作、搜推内容理解与结构化等任务领域落地优化,并实现业务指标提升
3、学习前沿论文与把握技术趋势,深入理解底层算法原理,探索实验面向未来的硬核技术,实现关键技术突破和技术创新
包括英文材料
NLP+
OpenCV+
算法+
大模型+
深度学习+
相关职位

logo of amap
实习高德地图2026

我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。与产品、工程团队合作,推动技术从研发到上线的全流程落地。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。

更新于 2025-03-03
logo of youku
校招虎鲸文娱2026

应用多模态理解、自然语言处理、计算机视觉等算法技术,对优酷站内海量长/短视频进行内容理解,紧跟前沿研究成果,参与视频智能生产的核心算法能力建设及业务应用落地 具体职责包括但不限于: 1、负责视频智能生产中需要的文娱领域化、任务专有化的大语言模型/多模态大模型的训练及优化,包括但不限于监督微调、偏好对齐、视频理解、图文生成等领域 2、基于业界最新前沿工作,在图片及视频检索、视频内容创作、搜推内容理解与结构化等任务领域落地优化,并实现业务指标提升 3、学习前沿论文与把握技术趋势,深入理解底层算法原理,探索实验面向未来的硬核技术,实现关键技术突破和技术创新

更新于 2025-08-05
logo of alibaba
实习淘天集团2026

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 1、提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,负责模型结构设计、训练任务设计、预训练和下游能力建设等; 2、基于淘天用户丰富的消费行为,打造技术先进的电商用户理解多模态大模型,提升对用户的异构行为本质的认知能力; 3、通过方案的优化设计帮助模型有持续scale up能力,助力模型在多模态理解任务上实现sota; 4、跟踪、探索大模型方向/多模态预训练方向的前沿技术,通过后训练强化学习提升多模态对齐、多模态推理思考能力,提升下游任务的效果。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper

更新于 2025-06-09
logo of quark
校招智能信息秋季20

在这里,你能接触业界前沿的图文内容理解和语义检索技术,依托夸克百亿图文和视频内容库,共同推动多模态前沿技术和创新在图片检索、视频检索、图片问答等场景的落地,你将深度参与: 1.通过前沿的多模态/大模型技术,对百亿图文和视频数据进行语义的对齐、知识的融合和提纯,包括:图片语义聚类、网页版面分析和文本内容供给、视频理解和语义对齐、图片视频caption等 2.多模态语义表征和匹配:基于多模态大模型更强的表征能力,统一各个模态的表征建模,提升各类检索任务的语义召回能力,包括:多模态表征模型的预训练、在各类检索任务上的后训练、指令化检索等

更新于 2025-08-13