阿里巴巴算法工程师-多模态方向
实习兼职淘天集团2026届春季实习生招聘地点:北京 | 杭州状态:招聘
任职要求
1、计算机、数学或统计学相关专业硕士及以上学历,2年内计算机多模态/NLP/CV相关工作经验,有较强的coding能力; 2、熟悉开源多模态大模型/文本大模型的技术原理和发展脉络,有多模态领域经验优先,有大模型的预训练、SFT等实践经验,熟悉常用的训练框架; 3、对通用大模型和其他新技术充满热情,能够独立实现前沿模型,有NLP/CV/ML顶会发表经验者(ACL/EMNLP/CVPR/ICCV/NeurIPS等)优先; 4、较强的分析和解决问题的能力,对数据敏感,能结合特定领域数据提出新问题新思路。 温馨提示: 1、每人仅有一次投递机会(官网投递 or 内部推荐),最多可提交2个意向。 2、如不符合本项目的应聘要求,请选择其他合适的批次(注:同一时间仅可投递一个应聘批次)。
工作职责
1、基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑发布、比货、导购等多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用。工作内容包括模型结构设计、训练任务设计、预训练和下游能力建设等; 2、 跟踪、探索大模型方向/多模态预训练方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性。
包括英文材料
学历+
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
SFT+
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
Understanding how SFT works from the idea to a working implementation...
CVPR+
https://cvpr.thecvf.com/
ICCV+
https://iccv.thecvf.com/
ICCV is the premier international computer vision event comprising the main conference and several co-located workshops and tutorials.
NeurIPS+
https://neurips.cc/
相关职位
社招A173988
1、与业务方紧密合作,理清业务需求并从多模态角度提供解决方案; 2、跟进前沿多模态算法,了解常见多模态任务、数据、评测手段,能够使用内外部多模态工具; 3、处理和分析多模态数据,需要能够有效地清洗、整理和可视化数据等; 4、在多模态LLM上要做到用能改,并在业务数据上Finetune; 5、着重探索基于多模态LLM的视频内容理解,支撑各类业务; 6、与各团队紧密协作,确保算法实施满足业务需求。
更新于 2023-10-31
实习
1. 参与预训练AI大模型的研发,微调和部署,包括功能实现,性能优化,和部署应用等; 2. 负责以视觉大模型/语言大模型为核心的多模态感知与开放词汇识别,负责问题的梳理定义、数据的搜集整理、模型的训练部署等工作; 3. 探索自动驾驶领域的AI大模型方案以及和传统方案的结合,并撰写相关论文,专利。
更新于 2025-07-07

社招3年以上技术
负责研发基于多模态大模型的智能化解决方案,推动AI技术在游戏产品中的落地应用。 1. 多模态AI Agent开发:设计和实现基于视觉-语言模型的智能Agent系统,支持游戏场景的自动化分析与交互 2. 模型优化与部署:对多模态大模型进行微调、量化和工程优化,确保在生产环境中的高效运行 3. 视觉算法研发:开发游戏场景中的目标检测、图像分割、OCR等视觉算法模块 4. 技术创新:跟踪前沿AI技术,探索LLM、AIGC等技术在游戏领域的创新应用
更新于 2025-06-19