logo of alibaba

阿里巴巴淘天算法技术-多模态内容理解算法-杭州

社招全职2年以上地点:杭州状态:招聘

任职要求


1. 计算机、人工智能、模式识别自然语言处理等相关专业硕士及以上学历;
2. 熟悉深度学习基础框架(PyTorch/TensorFlow),具备扎实的编程能力;
3. 熟悉自然语言处理NLP)、计算机视觉(CV)基础任务、多模态任务,如文本分类、序列标注、图像理解、目标检测、QA等;
4. 有视频理解、多模态内容分析、知识图谱构建、意图识别、文本生成等项目经验者优先;
5. 有语义理解与搜推结合应用结合的项目经验者优先;
6. 熟悉多模态大模型(MLLM)的训练、微调、推理优化流程,有实际部署经验者优先;
7. 在ACL、CVPRICMLNeurIPS、EMNLP、MM等顶会发表过论文者优先;
8. 具备良好的问题抽象与建模能力,能独立完成从问题定义到技术落地的闭环;
9. 具有良好的团队合作精神,较强的沟通能力,对工作充满激情,能够主动思考和行动,推进工作顺利实施;

工作职责


淘天内容理解算法团队,聚焦AI发展与业务结合的应用,赋能淘天推荐、搜索、广告、直播等多个业务场域,探索语义理解与搜推广结合应用的新范式。

本岗位负责构建面向视频、商品等多模态内容的高级语义理解系统,深入挖掘内容背后的深层语义信息,推动搜索、推荐、兴趣理解等核心业务的智能化升级。

主要负责的工作有:
1. 多模态高级语义理解:针对视频、图文、商品等内容,开展主题生成、脚本生成、知识抽取、种草意图识别等高级语义理解任务,构建动态可演进的语义Schema体系;
2. 动态语义Schema构建:设计并实现可扩展、可解释的动态语义结构,支持跨模态、跨场景的语义对齐与推理,提升内容理解的深度与泛化能力;
3. 多模态大模型(MLLM)应用与优化:基于多模态大模型进行相关性判断、意图识别、文本生成等任务的微调、蒸馏与推理优化;
4. 向量与语义检索系统:构建高精度、高效率的多模态向量检索系统,支持语义级内容匹配与召回,赋能搜索与推荐系统;
5. 生成式AI技术探索:结合MLLM能力,探索视频脚本理解、种草意图理解、内容摘要生成、AI搜索等生成式应用场景;
6. 跨模态对齐与融合:研究文本、图像、视频、音频等多模态信息的深度融合机制,提升跨模态语义一致性与理解准确率。
推动平台内容理解能力从“看得见”到“看得懂”的跃迁。
包括英文材料
模式识别+
NLP+
学历+
深度学习+
PyTorch+
TensorFlow+
OpenCV+
质量保证+
大模型+
CVPR+
ICML+
NeurIPS+
相关职位

logo of alibaba
社招

1、负责多模态 & 大模型在商品领域落地项目,涵盖商品内容理解&结构化/商品质量甄别/商品标题/图片生成/同款识别等任务。 2、负责商品检索相关的计算机视觉算法的创新和研究,包括但不限于:目标检测、图像分类、图像表征、图像校正与增强等相关算法研究。 3、负责商品知识库构建&知识标准化等工作。 4、负责跟踪业界前沿NLP&CV技术进展,寻找有价值的科研问题,开展前沿算法的研究工作,推进技术进步; 5、负责理解业务需求,进行针对性的研究算法,面向电商场景落地,发挥算法在实际应用中的价值。

更新于 2025-04-17
logo of alibaba
社招1年以上

1、负责大模型在商品领域落地项目,涵盖商品内容理解&结构化/商品质量甄别/商品标题&图片生成等任务。 2、负责商品检索相关的计算机视觉算法的创新和研究,包括但不限于:目标检测、图像分类、图像表征、图像校正与增强等相关算法研究。 3、负责商品知识库构建&知识标准化等工作。 4、探索 大模型 Agent 化应用,如商品发布智能回填、商家管控智能化,提升商品生态治理的自动化与智能化水平。 5、跟踪并应用 SFT、RLHF、LoRA、RAG ,RLHF等前沿技术,结合业务场景持续优化模型效果。

更新于 2025-10-11
logo of antgroup
社招3年以上技术类-算法

1. 探索和拥抱多模态大模型,深度改进多模态内容理解技术,应用到支付宝短视频、直播业务中; 2. 负责NLP、CV、Audio、多模态相关算法研发与落地,包括但不限于短视频/笔记内容结构化、文本&多模态内容理解表征、作者画像、主题发现、信息抽取、智能摘要等,完成短视频中"人、作者和用户"的标签对齐 3. 进行大模型前沿技术探索和研发,包含但不限于pre-train、SFT、RLHF等,用大模型解决实际的业务场景问题,负责算法设计、研发以及推动上线,提升业务效果

更新于 2025-08-24
logo of kuaishou
社招D13918

1、负责快手多媒体内容理解工作,应用计算机视觉、NLP、多模态融合等技术,提升短视频/直播内容体系建设、推荐、搜索的效果和体验; 2、负责快手多媒体相关的内容理解、语义理解的相关算法的研发,包括但不限于视频多分类、视频多标签、视频多模态embedding学习; 3、负责计算机多模态方向前沿问题的研究,参与建设并持续保持部门在多模态业界的技术先进性,保持创新的同时将业界SOTA模型持续优化并落地至线上获得收益。

更新于 2025-05-19