
智能互联千问事业部-大模型数据专家-LLM方向
任职要求
1、编程基本功扎实、熟悉常用数据结构和算法,有大规模、分布式数据处理的经验; 2、有面向大模型训练、或AI搜索/chat等创新业务的数据开发经验; 3、熟悉网页、文档的数据采集和处理技术,并能应用AI能力来不断优化数据效果; 4、具…
工作职责
1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作,完善相应平台和架构能力; 2、为文本大模型训练供给语料数据,为AI toC应用供给领域优质内容数据; 3、评估并提升训练数据的质量、多样性及标注准确性; 4、通过AI能力来赋能数据建设,提升数据效果及生产效率; 5、与模型及业务研发团队紧密协作,根据训练效果和业务指标反馈持续迭代数据策略。
我们是阿里巴巴千问C端夸克事业部基础搜索算法团队,团队的主要产品是搜索浏览器夸克,核心算法工作涉及:query理解、召回、排序、语义体系、质量体系等,本职位主要产品的排序算法优化,具体工作如下: 1. 通过负责排序链路的大模型排序模型、特征工程(设计、抽取、验证、筛选)、排序因子等优化,以提高排序的合理性,从而提高线上效果; 2. 通过大模型等先进NLP能力的应用,提升对于相关性、内容质量等建模,进而提升排序能力; 3. 通过海量用户行为分析,并联动召回、语义、离线、问答摘要等各个子方向,对上下游链路、横向链路进行合理的架构设计,进行多目标建模,包括但不限于:精排、重排等,以提高搜索产品的用户体验

1. 负责大模型数据研发方向,为LLM、VLM、ASR、TTS及omni model的训练供给优质语料数据,推动各业务场景提升模型训练效果; 2. 与算法团队协同、搭建各模态数据处理pipeline,利用业界先进技术对数据进行清洗、去重、打标、标注、圈选、打包,交付优质数据进行模型训练,提升整体交付效率和数据质量; 3. 与数据采集团队协同,推动前沿数据获取策略的研发与落地,探索合成数据技术,主动解决特定领域或模-态的数据稀缺与多样性挑战; 4. 构建各模态数据分类&质量体系及数据画像,对数据进行多维度、细粒度分析,基于模型训练效果反馈进行数据挖掘,指导数据收录优化方向,构建数据飞轮。

1.负责基于 LLM 和 Agent 框架(如 LangGraph, CrewAI, AutoGPT 等)设计并实现 SRE 智能体,构建具备感知、推理、规划、执行与反思能力的闭环运维系统; 2.深度拆解故障排查、容量规划、性能调优等运维场景,利用大模型重构工作流,实现从异常检测、根因分析到故障自愈的端到端自动化; 3.负责构建运维领域专业知识库,优化 RAG链路,提升 Agent 在处理复杂领域问题时的准确性和专业度; 4.探索多 Agent 协同机制,设计并实现针对复杂运维任务的任务分发、角色协作与共识协议; 5.持续优化智能运维平台的性能与扩展性,确保在高并发、超大算力规模环境下 AI 决策的实时性与稳定性。