
地平线【2026届校招】多模态大模型算法工程师
任职要求
1. 机器学习、计算机、数学、统计学相关专业硕士/博士; 2. 对于LLM、multi-modal model,VAE,diffusion,VLM等相关技术有深入的项目经验优先; 3. 有自动驾驶或者机器人相关研发经验优先,包括但不限于感知、预测、规划控制等; 4. 深入了解数据结构、算法、并行编程、大规模数据处理等相关知识,至少精通 C/C++ 或 Python 编程,有ACM经验者优先; 5. 有计算机视觉、机器学习、机器人领域顶会(CVPR/ICCV/ECCV/ICML/NeurIPS/ICLR/CORL)或顶刊(TPAMI/IJCV/TIP/TRO)者优先,有顶级学术比赛成果或实际工程项目经验者优先。
工作职责
1. 负责探索自动驾驶世界模型的研发,并将该模型落地到下一代自动驾驶系统中; 2. 参与面向自动驾驶的原生多模态大模型系统的算法研发; 3. 深入理解自动驾驶的应用场景,针对研发的世界模型,构建完备的模型评估链路和标准;

1、参与电商场景下的多模态理解、商品图生成等项目的研发; 2、跟进业界图像生成模型、多模态大模型等方向最新进展,结合业务场景,持续优化生成内容的可控性、真实性和良品率; 3、针对项目需求,完成数据集构建、数据获取清洗、训练优化、性能测试、模型部署等工作;
1、负责图像生成和编辑、三维图形建模、人体表情和肢体动画合成等相关技术的研发应用; 2、负责图像图形相关领域的前沿技术探索,包括但不限于GAN, Stable Diffusion, 3d Gaussian Splatting, 多模态大模型;
岗位课题: 1.电商视频生成模型研发 2.多个视频应用模型研发 3.原生支持中文的图像生成模型研发 4.有语义泛化性的图像编辑模型研发 课题背景: AIGC 生成已成为广告创意制作的主流制作形式,基于AIGC 图像和视频生成模型提供了丰富的素材并持续提升创意制作的美观度和多样性。同时视频和图像生成模型也是各科技公司在AI 领域争夺的中心领域之一。 阿里妈妈在过去两年从业务需求出发,持续研发电商领域的多模态生成模型,推出了淘宝星辰视频生成模型、图生视频模型、短视频模型、服饰模特生图模型、图文海报制作等多个原创能力,并成功落地万相营造、万相台无界版、千牛、光合平台、生意管家等多个工具平台和展示、搜索、外投等多个投放场景的创意制作。 岗位职责: 你将有机会参与核心多模态大模型研究工作,深入到数据准备 | Caption | 训练系统搭建 | Encoder | Pretraining | Continuous training | SFT | Post training 等多模态生成的方方面面, 亲手解决大模型研发的问题,并最终交付电商场景领先的生成模型,以及有机会提前获得校招T-Star的正式Offer。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 在这里,你可以基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑发布、比货、导购等多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用。工作内容包括模型结构设计、训练任务设计、预训练和下游能力建设等; 在这里,你将参与跟踪、探索大模型方向/多模态预训练方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。