logo of alibaba

阿里巴巴算法工程师- 跨模态理解与视频生成处理方向(T-Star Lab 日常实习)

实习兼职淘天集团T-Star日常实习生地点:北京 | 杭州状态:招聘

任职要求


1. 本科及以上学历,计算机科学、人工智能、电子与通信等相关专业;
2. 精通Diffusion模型及相关技术,掌握T2V基础模型及相关技术原理,有图像/视频生成或处理相关经验;
3. 具备卓越的工程实现能力,熟练掌握C/C++JavaPython等至少一门编程语言;
4. 熟练掌握深度学习框架,如TensorFlowPyTorch;
5. 学习能力强,对新技术有敏锐的洞察力,对AIGC领域充满热情,善于独立思考并持续优化;
6. 良好的沟通能力和团队协作精神,乐于分享技术见解,善于与团队成员合作。

【加分项】
1. 具有文本到视频(T2V)、AIGC内容编辑、多…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。


如果你,渴望深入探索视频生成技术,开发文本到视频(T2V)基础模型的前沿技术,致力于提升生成视频的画质,真实性,一致性,以及视频生产的效率;
如果你,热衷于AIGC驱动的视频增强与处理技术,专注于将通用大模型架构优化并迁移到垂直领域,推动下游应用性能的突破;
如果你,专注于基于AIGC的可控性编辑,探索如何精准实现内容生成与修改,满足多样化的业务需求;
如果你,对基于AIGC的人脸,人体生成编辑技术充满热情,致力于打造具有高度交互性和真实性的数字形象;
如果你,期望在多模态视频理解领域取得突破,通过技术创新提升视频内容的理解与分析能力;
如果你,期望与一群聪明、皮实、乐观、追求卓越的优秀伙伴并肩作战,共同开创音视频技术的新篇章;
那还在等待什么,赶紧加入我们吧!


T-Star实习可以带给你什么?
ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper
包括英文材料
学历+
C+
C+++
Java+
Python+
深度学习+
TensorFlow+
PyTorch+
还有更多 •••
相关职位

logo of alibaba
社招2年以上技术类-算法

1.主导多模态推荐系统研发,结合文本、图像、视频等多模态数据优化商品理解、用户行为分析及推荐策略,推动多模态与电商场景的深度融合。 2.设计并实现跨模态对齐技术(如图文/视频语义一致性建模),提升推荐系统的泛化能力和冷启动效果,探索多模态大模型在电商中的创新应用(如CLIP、BEiT3等框架优化)。 3.推动多模态模型的工程化部署,包括分布式训练加速(如TensorRT-LLM)、推理效率优化及性能调优。 4.结合搜索与推荐场景,探索多模态特征在排序、检索中的辅助作用,提升用户交互体验。

更新于 2025-08-28杭州
logo of amap
社招2年以上技术类-算法

团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包含但不限于: 1. 视觉理解任务的技术探索,要求对视觉基础任务有深入的理解,做好在商品理解、详情页的文图内容、开放图片识别等公司核心业务上的落地; 2. 多模态大模型的技术探索,要求对多模态大模型训练、文图跨模态对齐等有深入实践,做好多模态大模型的能力构建和应用; 3. 追踪领域前沿工作,沉淀技术,投稿领域顶级会议。

更新于 2025-11-03北京
logo of amap
社招3年以上技术类-算法

我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 团队主要聚焦多模态大模型技术在端到端自动驾驶的应用,我们期待你的工作将覆盖以下至少一个技术方向即可: 1. 在端到端自动驾驶、多模态大模型的训练及调优、BEV感知、基于深度学习/强化学习的规划控制、RLHF、驾驶场景视频生成等领域具备丰富且有独创性的研究经历。 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等。 3. 了解大模型模型的训练/微调/推理加速方法,包括但不限于模型结构调优、训练效率提升、高效低成本微调、Muti-token推理,模型部署加速等。 4. 参与自动驾驶系统中机器学习算法的研究、开发与优化,包括但不限于深度学习算法在端到端感知大模型、规控大模型、视觉语言大模型等方面的应用。 5. 负责收集、整理和分析自动驾驶相关的数据集,进行数据预处理和标注,以提高模型的准确性和泛化能力。 6. 设计和实现端到端自动驾驶模型的训练流程,包括选择合适的优化算法、调整超参数、评估模型性能等,确保模型在不同场景下的稳定性和可靠性。

更新于 2026-03-30北京
logo of baidu
社招2年以上MEG

1. 负责多模态数据(如文本、图像、音频、视频等)的采集、预处理,及模型设计、开发与优化,构建适合医疗领域的多模态大模型。 2. 研究并实现跨模态信息融合的算法和技术,提升模型在健康内容/服务业务场景中的理解和生成能力。 3. 跟踪多模态深度学习的最新研究进展,探索和落地前沿技术(如预训练、自监督学习、小样本学习等)。 4. 与产品和工程团队紧密合作,推动多模态技术在搜索、推荐、广告等领域的全链路落地应用。 5. 分析和解决在多模态数据处理过程中遇到的技术难题,持续提升模型的智能化水平和商业价值。

更新于 2025-05-16北京