夸克千问-搜索内容理解(LLM)实习生-杭州
任职要求
1. 计算机/人工智能相关专业硕士及以上学历 2. 熟悉Python编程,掌握PyTorch/TensorFlow至少一个深度学习框架 3. 对大语言模型(LLM)有深入理解和实践,熟悉Prompt Engineering、微调(SFT/RLHF)、RAG、Agent等主流技术路线 4. 有AI Coding工具(Cursor/Copilot/Windsurf等)的实际使用经验,能高效利用AI辅助编程完成…
工作职责
在LLM重构搜索的浪潮中,我们需要你将前沿技术与工程实践相结合,以AI驱动的方式推动搜索理解的技术落地与效果突破! 1. 参与搜索语义理解核心项目:基于大模型的语义表征与推理、大规模内容关系网络构建与应用、搜索场景下的LLM能力优化等方向的算法研发与系统落地 2. 开展算法创新与工程实现:设计实验方案、分析对比及消融结果,并推动优势方案在搜索场景中的线上部署与效果验证 3. 善用AI Coding工具(如Cursor、Copilot等)提升研发效率,快速完成原型搭建、数据处理与实验迭代 4. 跟踪大模型领域前沿进展:定期输出顶会论文解读,将前沿思路转化为可落地的技术方案
在LLM重构搜索的浪潮中,数据质量决定模型智能的天花板。我们需要你构建数据与模型的「双向进化引擎」,从万亿级多模态数据中提炼认知黄金,驱动大模型突破搜索理解的终极边界! 1. 万亿级网页提炼:研发多模态数据分析框架,通过网页解析、文档智能、知识抽取等技术,完成全网万亿级搜索网页的关键信息提炼。 2. 攻克数据质量理解:设计网页质量/权威性/可信度的多维度评估模型,以及跨模态数据表征技术,提升夸克在网页知识获取的准确性与可靠性。 3. 驱动数据与算法协同进化:探索大模型时代的数据评估方法论,量化数据优化对搜索效果和模型性能的影响。 4. 打造全网优质内容库:构建多模态数据的处理和挑选管线,建立覆盖网页/图文/视频等全域内容的智能知识库。

在LLM重构搜索的浪潮中,数据质量决定模型智能的天花板。我们需要你构建数据与模型的「双向进化引擎」,从万亿级多模态数据中提炼认知黄金,驱动大模型突破搜索理解的终极边界! 1. 万亿级网页提炼:研发多模态数据分析框架,通过网页解析、文档智能、知识抽取等技术,完成全网万亿级搜索网页的关键信息提炼。 2. 攻克数据质量理解:设计网页质量/权威性/可信度的多维度评估模型,以及跨模态数据表征技术,提升夸克在网页知识获取的准确性与可靠性。 3. 驱动数据与算法协同进化:探索大模型时代的数据评估方法论,量化数据优化对搜索效果和模型性能的影响。 4. 打造全网优质内容库:构建多模态数据的处理和挑选管线,建立覆盖网页/图文/视频等全域内容的智能知识库。
你将加入阿里千问C端事业群的核心算法团队,直接负责千问、夸克AI问答等大模型产品背后至关重要的“大脑”——RAG(检索增强生成)系统。我们的使命是为大模型打造一个专属的、下一代搜索引擎,确保AI在回答用户问题时,能做到毫秒级响应、内容全面、信息时效性强且高度专业。 1、基于海量用户行为数据以及人工标注数据,结合信息检索、自然语言处理、大规模预训练模型等前沿技术,支持 通用RAG检索、垂直场景下的智能AI问答 等一系列业务 2、研究方向包括但不限于信息检索、大规模预训练技术、文本生成、模型蒸馏/窃取、强化学习等
我们是阿里巴巴千问C端夸克事业部基础搜索算法团队,团队的主要产品是搜索浏览器夸克,核心算法工作涉及:query理解、召回、排序、语义体系、质量体系等,本职位主要产品的排序算法优化,具体工作如下: 1. 通过负责排序链路的大模型排序模型、特征工程(设计、抽取、验证、筛选)、排序因子等优化,以提高排序的合理性,从而提高线上效果; 2. 通过大模型等先进NLP能力的应用,提升对于相关性、内容质量等建模,进而提升排序能力; 3. 通过海量用户行为分析,并联动召回、语义、离线、问答摘要等各个子方向,对上下游链路、横向链路进行合理的架构设计,进行多目标建模,包括但不限于:精排、重排等,以提高搜索产品的用户体验