携程多模态算法工程师(内容理解与召回)(MJ029264)
任职要求
1 计算机,数学或者统计学等相关专业研究生及以上学历; 2 熟练掌握机器学习,深度学习的基础理论和方法。熟练使用python等编程语言,熟悉Pytorch,有分布式训练与部署经验优先; 3 有QwenVL、InternVL等开源模型优化与实践经验,熟悉S…
工作职责
1.参与大住宿相关多模态内容理解的算法能力建设,包括但不仅限于图片、视频、文本的语义理解、内容理解、跨模态理解等; 2.参与大规模多模态内容的召回、排序、精排等算法能力建设;参与多模态知识图谱的构建与应用; 2.参与业务分析、特征构建、模型建立、算法实现等过程。通过高质量的内容给相关业务赋能,结合业务特点做算法改进和技术创新用于实际业务; 3.探索大模型的研发和应用,研究相关技术在内容理解、召回、生成、知识图谱等领域的全新应用和解决方案。
多模态推荐算法工程师 (影像Agent方向) 1. 负责影像Agent核心推荐模块的设计与落地:深度参与影像Agent的意图理解与服务推荐,利用多模态大模型技术,让Agent能精准预判用户需求,主动推荐拍摄建议、创作玩法等; 2. 打造智能相册的创作推荐引擎:基于对照片、视频内容的多维度理解(如美学、情感、事件),为用户在相册编辑场景中,智能推荐个性化的模板、音乐、滤镜及包装特效,引爆创作灵感; 3. 主导影像社交App的内容分发与推荐:负责vivo旗下影像社交平台的内容推荐流,结合用户行为和多模态内容理解,探索前沿的推荐模型,提升优秀作品的曝光率、分发效率与用户粘性; 4. 探索前沿技术的应用与创新:跟进多模态大模型、生成式推荐、Agent等领域的最新进展,结合业务场景进行技术预研和方案设计,持续构筑vivo在智能影像推荐领域的技术壁垒;
1. 负责多模态大模型(涵盖图像、视频、音频、文本等模态)在内容安全、活体检测、人脸识别、内容理解等场景的算法研发与性能优化; 2. 探索和实现图像、视频、文本等多模态数据的统一建模与高效表征学习,提升模型在内容审核、短视频内容理解等任务中的泛化性和鲁棒性; 3. 紧密跟进与研究业界领先的大模型技术,如InternVL3、Qwen2.5-VL等,探索并落地其在图文审核、视频内容审核、身份核验等业务场景中的应用策略及精调方法; 4. 负责构建并持续优化模型训练及推理系统,显著提升多模态模型在安全审核领域的准确率、召回率与实时响应性能; 5. 探索并实现文本生成图像技术在内容生成与审核中的应用,提升系统的生成与理解能力; 6. 与产品、工程等相关团队密切合作,推动多模态审核、识别系统的业务落地,实现业务场景的闭环验证与持续迭代优化。

团队介绍: 我们深耕互联网金融信息服务领域,致力于为亿万用户打造高效、稳定、智能的一站式金融搜索服务。依托千万级日活搜索链路、百亿规模索引集群,以及成熟的RAG 与 Agent 技术体系,构建从数据采集、索引构建、语义理解、相关性排序到生成式搜索的全栈技术能力。以高可用、高稳定、高性能架构为核心,持续落地业界前沿 SOTA 技术,为用户提供精准、可靠、专业的金融信息服务。团队以突破传统搜索引擎边界为目标,深度融合搜索与大模型技术,打造下一代智能金融搜索体系。 发展方向:搜索、RAG、Agent算法专家 聚焦语义理解、内容理解、向量检索、RAG、Data Agent等核心方向,将经典检索算法与大模型、RAG、Agent 能力深度融合,覆盖用户意图识别、多模态内容理解、语义召回与精排、生成式搜索等关键场景。负责构建可支撑亿级流量、千亿级数据的工业级智能搜索系统,在真实业务场景中持续迭代算法效果、工程性能与系统稳定性。 岗位职责: 1. 聚焦互联网金融搜索与搜索增强场景,紧跟业界 SOTA 技术趋势,通过算法迭代持续提升搜索、搜索 + LLM 产品效果,支撑产品能力持续升级。 2. 负责语义相关性与语义召回算法研发,基于 LLM SFT、ReFT等构建语义基础能力,包括 LLM 与检索效果对齐、语义匹配、结构化匹配、表征学习等,提升 RAG 及核心搜索业务的文本匹配精度。 3. 建设多模态检索与多模态理解能力,针对金融场景网页、图表、图像、音视频等异构信息,构建跨模态表征、结构化抽取与精准检索体系,提升多模态内容理解与召回质量。 4. 设计与迭代 WebAgent 能力,实现网页自动浏览、交互模拟、信息抽取、事实校验与内容标准化,为搜索与 RAG 提供高质量、高可信数据源。 5. 构建 DataAgent 数据处理与知识融合链路,完成多源金融数据对齐、清洗、整合与归因校验,支撑业务规模化落地。 6. 搭建金融垂域搜索评测与效果对齐体系,从相关性、事实一致性、可用性、稳定性等多维度持续迭代优化。