logo of quark

夸克智能信息-夸克-VLM训练与应用数据工程师-杭州/北京

社招全职2年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1.扎实的编程能力,精通数据结构、并发/异步编程,熟悉高效文件I/O与分布式文件系统
2.熟练使用图像与视频处理工具及常用文本处理库,具备复杂场景下的数据工程实战经验;
3.熟悉多模态数据(图像-文本、视频-文本等更多模态)对齐策略、模态融合机制和处理规范;
4.熟悉数据标注、caption生成、标签质量评估流程,了解如何构建具备结构化知识与弱监督信号的数据;
5.具备数据可视化与分析能力,能在模型训练闭环中发现问题、驱动策略优化;
6.具备跨团队协作意识,能与算法工程师紧密对接实验设计与数据反馈,推动数据产品团队落地标准化平台工具。

工作职责


我们致力于构建支持通用人工智能发展的高质量、多模态大规模训练数据集,服务于图像、视频、文本等复杂模态融合下的大模型研发。该岗位将主导多模态数据基础设施的设计、处理流程的智能化优化,并深度参与高价值数据(如推理类任务数据、领域权威知识数据)的构建与增强,为模型的理解力、泛化能力与推理能力提供坚实数据支撑。
你将与算法工程师、数据产品经理紧密合作,共同推动数据与模型的正反馈闭环,包括数据构建策略共创、实验验证、产品化数据标准制定等,在万卡集群的充足算力支持下,实现“数据即能力”的宏大目标。

主要职责:
1.设计与维护高扩展性、多模态数据基础设施
支持图像、视频、文本等模态数据的高效采集、存储、调度与版本化管理,满足大模型多轮训练与快速迭代需求。
2.构建推理能力导向的数据集
主导构建具备复杂因果关系、长链思维、多跳推理、模态融合推理、多语言对齐推理等能力评估或训练所需的数据集,服务大模型“理解-生成-决策”闭环。
3.高性能并行数据处理优化
在CPU/GPU集群或分布式环境中优化大规模图像/视频/文本混合数据的处理性能,提升数据准备效率与稳定性。
4.构建可视化与分析工具,辅助数据理解与反馈闭环
实现多模态数据分布可视化、异常聚类检测与质量诊断,服务于模型训练前/中/后的数据决策优化。
5.与算法工程师深度协同,提升模型性能与数据对齐度
基于模型效果与损失分析,共同制定数据增强策略、采样分布设计、多轮训练数据构造方法,实现数据与模型迭代的高效协同。
6.与数据产品团队合作,推进数据标准化与平台化建设
参与数据标签体系、任务定义、多模态对齐协议等的标准制定,推动数据处理工具、标注平台、数据质量评估体系的产品化落地。
包括英文材料
数据结构+
算法+
相关职位

logo of quark
社招2年以上技术类-算法

1. 操控万卡规模的 GPU 集群,对超大参数量级的预训练模型进行高效分布式训练与优化。 2.深度参与多模态(图像、语音、文本、视频)大模型的研发,探索多学科交叉领域的新奇玩法。 3.我们的技术将为夸克亿万用户提供高品质的AI智能服务,见证前沿技术实现真正的用户价值 加入我们,你将获得: 1.与顶级专家携手,以世界级算力资源和数据支持为背书,不断挑战技术极限。 2.极具竞争力的薪酬与福利,人性化、追求卓越技术的的工程师团队文化,助你在职业成长道路上全速前进。 3.在通往 AGI 的征途上,亲历关键技术的诞生与应用,留下属于你的时代印记。 如果你渴望驰骋在大模型与 AGI 的蓝海之中,那么这将是你的最佳舞台!快来加入我们,一同开创智能时代的新纪元。

更新于 2025-09-28
logo of alibaba
社招2年以上

团队背景: 淘宝文本搜索算法团队是淘天集团内专注于创新和优化搜索技术的核心团队。我们的任务是通过持续研发高效、精准的搜索算法,以提升用户的在线购物体验和满意度,进而推动电商平台的商业成功。 岗位职责: 1. 设计和参与升级淘宝电商搜索系统的整体召回算法框架,包括但不限于倒排索引检索、多模态语义向量召回检索、生成式检索以及个性化检索。 2. 负责研发和优化电商BERT类型的多模态预训练模型,以应用于电商领域中搜索召回的稀疏检索、稠密检索,以及相关性模型、Query理解等多种任务中。 3. 研究和应用最新的可学习稀疏检索算法和倒排索引技术,以提高系统的搜索相关商品召回率,推动淘宝电商搜索倒排系统向高效、智能化在线截断方向演进。 4. 设计、实现和优化基于大型预训练模型的稠密检索系统,处理大规模电商数据,包括商品信息、用户搜索日志等,充分利用样本技术提高搜索结果的相关商品召回率,以提供高效的搜索体验;并结合近似最近邻搜索(Approximate Nearest Neighbor, ANN)算法,同时在表征和索引上协同优化商品搜索召回的性能。 5. 负责淘宝电商商品搜索领域生成式大模型商品检索方向的优化与应用,打造垂直领域业界标杆;研究商品索引结构设计、大模型生成式商品检索技术、大模型预训练的目标与下游商品检索任务对齐等技术。 6. 负责设计、实现和优化电商领域的个性化搜索召回系统,结合行为序列预训练建模技术,以提高搜索结果的个性化匹配和用户满意度;实现和优化电商领域商品维度的效率模型与退款率模型。

更新于 2025-09-22
logo of antgroup
校招蚂蚁星计划 -

作为蚂蚁集团核心安全数据中枢,我们构建金融级全域智能安全防御体系,深耕风险防控、数据资产保护、网络攻防对抗、内容生态治理等关键领域。依托EB级全域安全数据资产与万亿级实时计算能力,为集团数字支付、数字互联生态、数金业务矩阵(网商银行、财富管理、保险科技)、数字科技输出及全球化业务提供全链路安全赋能。 我们依托先进的大数据分析技术和机器学习算法,深度挖掘数据中潜藏的风险与威胁,通过智能预测与主动防御机制,实现安全事件的精准识别与快速响应。持续追踪前沿技术发展,整合大数据、大模型和AI生成技术,成功打造了规模超千亿的多模态安全训练数据集。这些高质量数据集已成为集团大模型安全基础训练语料,广泛应用于大模型安全防御、大模型去毒及身份核验等关键安全领域。加入我们,你将有机会投身于前沿技术的研发与应用,亲身探索全球领先的科技创新成果。我们不仅提供行业领先的薪酬福利体系,更致力于为你营造专业、开放且富有活力的工作氛围。如果你对安全技术与数据应用怀有热忱,渴望在充满创新机遇与专业挑战的环境中实现职业成长,我们诚挚邀请你加入安全大数据技术团队!让我们携手共建智能安全新未来! 1.参与大模型预训练数据、sft数据、指令、CoT数据等样本处理计算和加工; 2.负责设计开发创新性数据合成算法,优化大模型训练中的高维稀疏数据表征与长尾分布处理; 3.负责搭建多模态数据生成工厂,探索文本、代码、图像的语义对齐与高质量合成,负责多模态数据分析与融合:处理文本、图像、音频等多模态数据,研发高效算法实现数据语义融合与精确解析; 4.设计先进的对抗式数据增强技术,提升噪声过滤精度并突破数据清洗瓶颈; 5.研究基于合成数据的大模型迭代机制,推动模型持续进化与提升性能。

logo of quark
校招智能信息秋季20

阿里巴巴智能信息事业群,聚焦AI在信息服务赛道的创新应用,从工具到服务,持续为用户提供高效、智能的AI应用。智能信息事业群核心产品为夸克、通义、UC浏览器、书旗小说、超级汇川等,以多产品矩阵,覆盖横跨各年龄段的7亿+用户人群,服务超10万+客户。 如果你想加入到业界最先进的文本及多模态大模型的训练和Agent应用相关的项目中; 如果你想参与内容数据的采集、存储及处理,支持大模型训练语料及AI搜索业务数据供给; 如果你想接触世界领先的大数据处理与应用的技术和平台,获得大数据浪潮之巅的各类大牛的指导; 那就加入我们吧!

更新于 2025-08-13