logo of quark

夸克智能信息-大模型数据专家-图文多模方向

社招全职3年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1、具备扎实的数据结构与并发编程能力,熟悉高效文件I/O与分布式文件系统;
2、熟练使用主流图像与视频处理工具和库(如 OpenCV、FFmpeg、PyAV),具备复杂场景下的处理经验;
3、具备在 CPU 和 GPU 上优化及并行化数据处理流程的能力;
4、熟悉用于机器学习训练数据的数据标注与caption流程;
5、熟悉大规模图像/视频数据清洗和…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


致力于构建高质量的大规模视觉训练数据集,支持图像、视频等多模态模型的研发。主导数据基础设施的设计与优化,确保数据具备良好的质量、多样性与可扩展性。
1. 开发并维护可扩展的数据基础设施,支持大规模图像和视频数据的采集、存储与管理;
2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化;
3. 实现可扩展且高效的工具,用于可视化、聚类以及深度理解数据;
4. 优化和并行化数据处理流程,以高效处理上亿级别的数据集;
5. 评估并提升训练数据的质量、多样性及标注准确性(包括但不限于caption生成);
6. 与模型研发团队紧密协作,根据训练效果和模型反馈持续迭代数据策略。
包括英文材料
数据结构+
算法+
NLP+
大模型+
后端开发+
Java+
C+++
还有更多 •••
相关职位

logo of quark
实习日常实习生

我们是谁: -事业群简介:我们是阿里智能信息事业群,专注于千问APP、夸克APP、AI眼镜等AI to C的业务,为2亿用户群体提供AI服务,你或你身边的小伙伴中可能就是我们的用户。我们是一支致力于在AI赛道长期发展、创新务实的团队,欢迎每一位有想法、对AI有热情的小伙伴和我们一起参与这个令人激动的过程。 -团队简介:我们是“千问相机”背后的多模搜索&问答算法团队,负责构建面向千问APP、夸克APP、AI眼镜等产品的统一多模态理解、搜索、问答技术体系,我们基于百亿级图文/视频库及海量用户真实场景需求,攻克多模态对齐与检索难题,探索大模型与搜索的深度融合,支撑全网搜索、智能拍搜、多模态RAG等关键场景。团队技术氛围浓厚,工作氛围开放包容,加入我们,与顶尖工程师共同成长! ⭐️ 你会参与到: 1.与算法工程师携手深入探索大模型的底层原理,能够更好地理解数据与模型之间的关系,为模型训练提供更具针对性的标注策略,加速模型的优化与迭代。 2.深度参与数据与模型的交互过程,理解不同领域知识之间的关联和相互影响,从而拓展自己的知识边界,培养跨学科的思维能力,能够从多个角度理解数据、理解知识、理解智能。 3.通过对数据作为人工智能核心驱动因素之一的深刻理解和实战参与,进一步提升快速学习的能力、创新思维激发,对个人未来的职业发展中提供更多的可能性,进一步提升未来在职场的竞争力。

更新于 2025-12-04杭州
logo of quark
社招3年以上技术类-算法

在LLM重构搜索的浪潮中,数据质量决定模型智能的天花板。我们需要你构建数据与模型的「双向进化引擎」,从万亿级多模态数据中提炼认知黄金,驱动大模型突破搜索理解的终极边界! 1. 万亿级网页提炼:研发多模态数据分析框架,通过网页解析、文档智能、知识抽取等技术,完成全网万亿级搜索网页的关键信息提炼。 2. 攻克数据质量理解:设计网页质量/权威性/可信度的多维度评估模型,以及跨模态数据表征技术,提升夸克在网页知识获取的准确性与可靠性。 3. 驱动数据与算法协同进化:探索大模型时代的数据评估方法论,量化数据优化对搜索效果和模型性能的影响。 4. 打造全网优质内容库:构建多模态数据的处理和挑选管线,建立覆盖网页/图文/视频等全域内容的智能知识库。

更新于 2025-11-12杭州
logo of quark
社招3年以上技术类-算法

岗位描述: 全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。

更新于 2025-12-02北京|杭州
logo of alibaba
社招3年以上技术类-算法

阿里国际客户体验部算法团队,负责国际电商(AliExpress、Lazada、Daraz等平台)在线客服(图文沟通)、热线客服(电话沟通)、客服工作台的各类算法建设。面临几十种语言的复杂服务问题,目前聚焦大模型优化和Agent构建,在保证客户服务质量的情况下,大幅提升服务效率和降低服务成本。 1、多语言大模型的优化,包括:多语言对话数据挖掘与清洗、任务微调、强化学习偏好对齐等; 2、设计智能体框架和落地实现,推动在国际各个电商平台上的客服系统落地; 3、根据业务问题,探索大模型优化和应用的新范式。

更新于 2025-10-29杭州