夸克千问C端事业群-大模型数据专家-图文多模方向
任职要求
1、具备扎实的数据结构与并发编程能力,熟悉高效文件I/O与分布式文件系统; 2、熟练使用主流图像与视频处理工具和库(如 OpenCV、FFmpeg、PyAV),具备复杂场景下的处理经验; 3、具备在 CPU 和 GPU 上优化及并行化数据处理流程的能力; 4、熟悉用于机器学习训练数据的数据标注与caption流程; 5、熟悉大规模图像/视频数据清洗和…
工作职责
致力于构建高质量的大规模视觉训练数据集,支持图像、视频等多模态模型的研发。主导数据基础设施的设计与优化,确保数据具备良好的质量、多样性与可扩展性。 1. 开发并维护可扩展的数据基础设施,支持大规模图像和视频数据的采集、存储与管理; 2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化; 3. 实现可扩展且高效的工具,用于可视化、聚类以及深度理解数据; 4. 优化和并行化数据处理流程,以高效处理上亿级别的数据集; 5. 评估并提升训练数据的质量、多样性及标注准确性(包括但不限于caption生成); 6. 与模型研发团队紧密协作,根据训练效果和模型反馈持续迭代数据策略。
1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作,完善相应平台和架构能力; 2、为文本大模型训练供给语料数据,为AI toC应用供给领域优质内容数据; 3、评估并提升训练数据的质量、多样性及标注准确性; 4、通过AI能力来赋能数据建设,提升数据效果及生产效率; 5、与模型及业务研发团队紧密协作,根据训练效果和业务指标反馈持续迭代数据策略。
我们正在构建世界级医疗垂直大模型,致力于通过AGI技术革新健康咨询与辅助诊疗场景,让精准医疗普惠每个家庭。如果你渴望在万卡算力集群上实现算法突破,用技术改变14亿人的生命质量,这是你不可错过的技术圣战。加入我们,定义医疗大模型的未来。 职位描述: 1、解决模型在真实、复杂、强噪声的医疗多模态数据中,形成可靠的诊疗推理能力。训练模型能力做到在多模态证据(非结构化文本、影像、时序数据)之间建立可推理的联系,在信息不充分时保持克制,在必要时给出可回溯、可解释的诊疗路径 2、探索多模态模型在医疗问答、智能诊断、多轮对话场景中的能力上限,探索从数据挖掘、RL 训练策略设计、模型调优到效果评估的完整闭环 3、探索神经符号融合系统
团队介绍: 1. 夸克搜索是追求极速智能搜索的先行者,为用户的信息获取提供极速精准的搜索体验。 2. 团队属于阿里巴巴智能信息事业部板块下核心技术部门,负责夸克搜索业务核心体验的优化与开发。 3. 团队内部算法和工程结合,可以依据个人兴趣和能力,深入探索更丰富的技术领域;同时团队氛围融洽且开放,追求简单、轻松、愉快工作氛围的同学不容错过。 4. 团队工作具有业务复杂度高、技术挑战大、技术栈全面等特点,高并发低延时,大数据存储及挖掘。 5. 团队紧跟业界前沿技术,演进和迭代业务架构和算法,支撑业务在行业竞争中处于优势地位。 岗位职责: 1. 负责设计、开发和持续优化用户画像算法模型,充分运用大数据、机器学习、深度学习以及大模型技术,构建高精度的用户画像,有力服务于个性化推荐、精准营销、用户行为分析等多元业务场景。从海量多源数据中高效提取关键特征,通过不断改进数据处理、特征工程、模型训练、模型评估等核心技术,显著提升用户画像模型的准确性和表现。 2. 主导设计和开发高效的知识库算法(涵盖数据处理、机器学习、深度学习等)与模型,全力提升知识库建设的效率、准确性及可靠性。承担知识抽取、知识融合、知识表示和知识检索等关键工作,完成知识库的构建、维护和优化,为各类模型的智能化应用提供坚实支撑。开展数据挖掘工作,开发数据打标、能力分层、自适应推荐等算法,显著提升推荐预测和个性化学习的效果。
1. 大模型驱动的搜索架构革新:主导医疗搜索核心算法体系的迭代升级,聚焦大模型排序、多模态召回、语义理解等关键技术突破,构建下一代医疗垂直领域搜索范式。 2. 大模型深度应用与优化:探索大模型在医疗搜索场景的落地路径,通过模型微调、知识蒸馏、检索增强生成(RAG)等技术,重构相关性计算、召回策略与排序模型,实现搜索效果的质的飞跃。 3. 多模态数据深度挖掘与模型创新:基于全网文本、图片、视频等多模态数据及超大规模用户行为日志,结合前沿学术成果,设计并落地统计学习与深度学习模型,打造极致精准的医疗搜索体验。 4. 用户行为深度洞察与痛点解决:运用在线学习、因果推断等先进方法,构建用户意图理解与行为预测体系,系统性解决医疗搜索场景下的核心痛点,提升用户满意度与信任度。