
智能互联千问C端事业群-数据研发专家-杭州
任职要求
1. 丰富的大数据研发经验,主导过复杂数据体系从0到1建设或大规模演进;能结合业务场景设计高复用、可扩展的数据资产体系,有跨境业务经验者优先 2. 深入理解湖仓一体架构,具备Paimon等湖表格式的生产级开发、优化或治理经验,能推动流批一体、增量计算等先进范式落地; 3. 有从事分布式数据存储与计算平台应用开发经验,有Hadoop、Spark、Spark Streaming、Storm、Fli…
工作职责
1. 负责千问智能硬件业务的数据资产建设;联合BI赋能管理决策,共建1+N+N决策数据产品,服务销售,市场,运营,体验,工程,算法等业务场景; 2. 深入理解业务架构和需求,参与智能硬件业务软硬一体的端到端的数据架构设计与建设,包括统一采集、数据资产建设与管理和数据质量及稳定性保障体系等; 3. 深度理解业务,通过对业务策略和痛点的分析,利用数据监控、分析和挖掘等能力,在用户增长、内容运营、商业化运营等业务场景中提供系统性的解决方案并落地 4. 面向智能互联业务场景构建AI数据取数产品,提升组织经营决策效率。 5. 主导或参与湖仓一体的数据架构演进,推动数据采集、治理、质量保障、自动化运维体系的持续优化。
1. 负责千问智能硬件业务的数据资产建设;联合BI赋能管理决策,共建1+N+N决策数据产品,服务销售,市场,运营,体验,工程,算法等业务场景; 2. 深入理解业务架构和需求,参与智能硬件业务软硬一体的端到端的数据架构设计与建设,包括统一采集、数据资产建设与管理和数据质量及稳定性保障体系等; 3. 深度理解业务,通过对业务策略和痛点的分析,利用数据监控、分析和挖掘等能力,在用户增长、内容运营、商业化运营等业务场景中提供系统性的解决方案并落地 4. 面向智能互联业务场景构建AI数据取数产品,提升组织经营决策效率。 5. 主导或参与湖仓一体的数据架构演进,推动数据采集、治理、质量保障、自动化运维体系的持续优化。
1、参与万卡大规模文本及多模态大模型训练框架建设,为Quark、通义等国民级APP的大模型提供持续效果优化能力; 2、参与算法与工程结合的模型结构创新设计,并通过工程实现验证模型性能和训练效率; 3、参与万卡规模训练任务的极致训练效率优化,负责前沿技术的调研、引入和创新,效果验证与落地等工作。
1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作,完善相应平台和架构能力; 2、为文本大模型训练供给语料数据,为AI toC应用供给领域优质内容数据; 3、评估并提升训练数据的质量、多样性及标注准确性; 4、通过AI能力来赋能数据建设,提升数据效果及生产效率; 5、与模型及业务研发团队紧密协作,根据训练效果和业务指标反馈持续迭代数据策略。
岗位描述: 全面负责千问大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。