阿里巴巴淘天算法技术-多模态内容理解算法-杭州
社招全职2年以上地点:杭州状态:招聘
任职要求
1. 计算机、人工智能、模式识别、自然语言处理等相关专业硕士及以上学历; 2. 熟悉深度学习基础框架(PyTorch/TensorFlow),具备扎实的编程能力; 3. 熟悉自然语言处理(NLP)、计算机视觉(CV)基础任务、多模态任务,如文本分类、序列标注、图像理解、目标检测、QA等; 4. 有视频理解、多模态内容分析、知识图谱构建、意图识别、文本生成等项目经验者优先; 5. 有语义理解与搜推结合应用结合的项目经验者优先; 6. 熟悉多模态大模型(MLLM)的训练、微调、推理优化流程,有实际部署经验者优先; 7. 在ACL、CVPR、ICML、NeurIPS、EMNLP、MM等顶会发表过论文者优先; 8. 具备良好的问题抽象与建模能力,能独立完成从问题定义到技术落地的闭环; 9. 具有良好的团队合作精神,较强的沟通能力,对工作充满激情,能够主动思考和行动,推进工作顺利实施;
工作职责
淘天内容理解算法团队,聚焦AI发展与业务结合的应用,赋能淘天推荐、搜索、广告、直播等多个业务场域,探索语义理解与搜推广结合应用的新范式。 本岗位负责构建面向视频、商品等多模态内容的高级语义理解系统,深入挖掘内容背后的深层语义信息,推动搜索、推荐、兴趣理解等核心业务的智能化升级。 主要负责的工作有: 1. 多模态高级语义理解:针对视频、图文、商品等内容,开展主题生成、脚本生成、知识抽取、种草意图识别等高级语义理解任务,构建动态可演进的语义Schema体系; 2. 动态语义Schema构建:设计并实现可扩展、可解释的动态语义结构,支持跨模态、跨场景的语义对齐与推理,提升内容理解的深度与泛化能力; 3. 多模态大模型(MLLM)应用与优化:基于多模态大模型进行相关性判断、意图识别、文本生成等任务的微调、蒸馏与推理优化; 4. 向量与语义检索系统:构建高精度、高效率的多模态向量检索系统,支持语义级内容匹配与召回,赋能搜索与推荐系统; 5. 生成式AI技术探索:结合MLLM能力,探索视频脚本理解、种草意图理解、内容摘要生成、AI搜索等生成式应用场景; 6. 跨模态对齐与融合:研究文本、图像、视频、音频等多模态信息的深度融合机制,提升跨模态语义一致性与理解准确率。 推动平台内容理解能力从“看得见”到“看得懂”的跃迁。
包括英文材料
模式识别+
https://www.mathworks.com/discovery/pattern-recognition.html
Pattern recognition is the process of classifying input data into objects, classes, or categories using computer algorithms based on key features or regularities.
https://www.microsoft.com/en-us/research/wp-content/uploads/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf
Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
学历+
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
质量保证+
https://roadmap.sh/qa
Steps to follow in order to become a modern QA Engineer
https://www.youtube.com/watch?v=AKLuQaPWcdg
Learn Testing And Quality Assurance Complete Course
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
CVPR+
https://cvpr.thecvf.com/
ICML+
https://icml.cc/
NeurIPS+
https://neurips.cc/
相关职位
社招
1、负责多模态 & 大模型在商品领域落地项目,涵盖商品内容理解&结构化/商品质量甄别/商品标题/图片生成/同款识别等任务。 2、负责商品检索相关的计算机视觉算法的创新和研究,包括但不限于:目标检测、图像分类、图像表征、图像校正与增强等相关算法研究。 3、负责商品知识库构建&知识标准化等工作。 4、负责跟踪业界前沿NLP&CV技术进展,寻找有价值的科研问题,开展前沿算法的研究工作,推进技术进步; 5、负责理解业务需求,进行针对性的研究算法,面向电商场景落地,发挥算法在实际应用中的价值。
更新于 2025-04-17
社招1年以上
1、负责大模型在商品领域落地项目,涵盖商品内容理解&结构化/商品质量甄别/商品标题&图片生成等任务。 2、负责商品检索相关的计算机视觉算法的创新和研究,包括但不限于:目标检测、图像分类、图像表征、图像校正与增强等相关算法研究。 3、负责商品知识库构建&知识标准化等工作。 4、探索 大模型 Agent 化应用,如商品发布智能回填、商家管控智能化,提升商品生态治理的自动化与智能化水平。 5、跟踪并应用 SFT、RLHF、LoRA、RAG ,RLHF等前沿技术,结合业务场景持续优化模型效果。
更新于 2025-10-11
社招3年以上技术类-算法
1. 探索和拥抱多模态大模型,深度改进多模态内容理解技术,应用到支付宝短视频、直播业务中; 2. 负责NLP、CV、Audio、多模态相关算法研发与落地,包括但不限于短视频/笔记内容结构化、文本&多模态内容理解表征、作者画像、主题发现、信息抽取、智能摘要等,完成短视频中"人、作者和用户"的标签对齐 3. 进行大模型前沿技术探索和研发,包含但不限于pre-train、SFT、RLHF等,用大模型解决实际的业务场景问题,负责算法设计、研发以及推动上线,提升业务效果
更新于 2025-08-24