蚂蚁金服蚂蚁集团-多模态语料质量评估与优化工程师-杭州/上海

社招全职2年以上技术-开发2026-06-24地点：上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1.  教育背景：计算机、数学、人工智能、自然语言处理或相关领域本科及以上学历，硕士/博士优先。
2.  专业经验：
     1）2年以上自然语言处理、多模态数据处理或数据科学研发经验，有大模型预训练/微调语料治理经验者优先；
     2）深入掌握信息抽取（实体/关系/属性）、数据清洗、标注一致性评估、数据合成中的至少一项核心技术；3）具备多模态对齐分析或跨模态质量度量项目实践。
3.  技术能力：
     1）精通PyTorch/TensorFlow，熟练使用Transformers、LangChain等工具链；
     2）熟悉大规模数据处理框架及分布式计算优化；
     3）有基于LLM或Diffusion模型的合成数据生成与验证实践经验。
4.  数据质量能力：
     1）具备数据敏感度，能从多模态数据分布中识别系统性偏差、噪声模式…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.  多模态语料质量评估体系建设 ：
     1）设计覆盖文本、图像、音频、视频等多模态数据的质量评估维度（如一致性、完整性、跨模态对齐度等），建立可量化、自动化的质量度量框架，定义多模态场景下的质量验收基线与SOP；
     2）研发基于语义理解的自动化质检算法，开发可视化质检平台与诊断工具，支持跨团队（算法/数据/工程）协同的数据质量分析决策。
2.  结构化语料优化与增强：
     构建从非结构化多模态数据到高质量结构化知识（图谱、合成链路等）的生成与验证闭环，利用可控Agent生成技术检测高保真、多样化逻辑推理样本，提升数据的逻辑密度与可解释性，并通过对抗验证与消融实验评估其对模型泛化能力的增益。
3.  数据-模型质量飞轮驱动：
     通过质量导向的数据消融实验，量化分析语料结构质量、分布均衡性、噪声水平对模型推理能力与知识记忆的影响边界，建立“低质样本诊断->清洗/合成策略迭代->模型性能验证”的闭环流程，推动以数据质量为核心的模型持续优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

学历+

数据科学+

大模型+

PyTorch+

TensorFlow+

还有更多 •••

登录查看完整学习资料