夸克千问C端事业群-大模型数据策略运营-北京/杭州
任职要求
1. 本科或以上学历,有人工智能领域5年以上工作经验,有AI项目交付or效果运营经验优先;
2. 对数据敏感,能够基于复杂的业务场景进行独立的设计规划,关注新技术和新工具的使用…工作职责
1、高效承接大模型文本、图片、视频等数据标注业务需求,独立承担标注策略制定、项目管理、流程优化、质量把控等工作; 2、对优质内容有一定的判断力和敏感度,能够基于业务数据,进行模型效果监控、评估、分析、反馈,并推动模型优化链路迭代,打造数据飞轮,对模型进行内容改进策略建议; 3、与上下游产品技术通力合作,制定有效的数据策略,推进大模型效果提升和产品化目标达成; 4、同时统筹多个标注/评测项目的管理工作,负责外包、众包人员的组织与协调,推动项目成功交付; 5、 熟悉AI产品,对大模型行业发展及产品动态有充分认知,并能有效应用到实际业务。
1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作,完善相应平台和架构能力; 2、为文本大模型训练供给语料数据,为AI toC应用供给领域优质内容数据; 3、评估并提升训练数据的质量、多样性及标注准确性; 4、通过AI能力来赋能数据建设,提升数据效果及生产效率; 5、与模型及业务研发团队紧密协作,根据训练效果和业务指标反馈持续迭代数据策略。
致力于构建高质量的大规模视觉训练数据集,支持图像、视频等多模态模型的研发。主导数据基础设施的设计与优化,确保数据具备良好的质量、多样性与可扩展性。 1. 开发并维护可扩展的数据基础设施,支持大规模图像和视频数据的采集、存储与管理; 2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化; 3. 实现可扩展且高效的工具,用于可视化、聚类以及深度理解数据; 4. 优化和并行化数据处理流程,以高效处理上亿级别的数据集; 5. 评估并提升训练数据的质量、多样性及标注准确性(包括但不限于caption生成); 6. 与模型研发团队紧密协作,根据训练效果和模型反馈持续迭代数据策略。
岗位描述: 全面负责千问大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。
我们正在构建世界级医疗垂直大模型,致力于通过AGI技术革新健康咨询与辅助诊疗场景,让精准医疗普惠每个家庭。如果你渴望在万卡算力集群上实现算法突破,用技术改变14亿人的生命质量,这是你不可错过的技术圣战。加入我们,定义医疗大模型的未来。 职位描述: 1、解决模型在真实、复杂、强噪声的医疗多模态数据中,形成可靠的诊疗推理能力。训练模型能力做到在多模态证据(非结构化文本、影像、时序数据)之间建立可推理的联系,在信息不充分时保持克制,在必要时给出可回溯、可解释的诊疗路径 2、探索多模态模型在医疗问答、智能诊断、多轮对话场景中的能力上限,探索从数据挖掘、RL 训练策略设计、模型调优到效果评估的完整闭环 3、探索神经符号融合系统