蚂蚁金服蚂蚁集团-多模态语料质量评估与优化工程师-杭州/上海
社招全职2年以上技术-开发地点:上海 | 杭州状态:招聘
任职要求
1. 教育背景:计算机、数学、人工智能、自然语言处理或相关领域本科及以上学历,硕士/博士优先。 2. 专业经验: 1)2年以上自然语言处理、多模态数据处理或数据科学研发经验,有大模型预训练/微调语料治理经验者优先; 2)深入掌握信息抽取(实体/关系/属性)、数据清洗、标注一致性评估、数据合成中的至少一项核心技术;3)具备多模态对齐分析或跨模态质量度量项目实践。 3. 技术能力: 1)精通PyTorch/TensorFlow,熟练使用Transformers、LangChain等工具链; 2)熟悉大规模数据处理框架及分布式计算优化; 3)有基于LLM或Diffusion模型的合成数据生成与验证实践经验。 4. 数据质量能力: 1)具备数据敏感度,能从多模态数据分布中识别系统性偏差、噪声模式…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 多模态语料质量评估体系建设 :
1)设计覆盖文本、图像、音频、视频等多模态数据的质量评估维度(如一致性、完整性、跨模态对齐度等),建立可量化、自动化的质量度量框架,定义多模态场景下的质量验收基线与SOP;
2)研发基于语义理解的自动化质检算法,开发可视化质检平台与诊断工具,支持跨团队(算法/数据/工程)协同的数据质量分析决策。
2. 结构化语料优化与增强:
构建从非结构化多模态数据到高质量结构化知识(图谱、合成链路等)的生成与验证闭环,利用可控Agent生成技术检测高保真、多样化逻辑推理样本,提升数据的逻辑密度与可解释性,并通过对抗验证与消融实验评估其对模型泛化能力的增益。
3. 数据-模型质量飞轮驱动:
通过质量导向的数据消融实验,量化分析语料结构质量、分布均衡性、噪声水平对模型推理能力与知识记忆的影响边界,建立“低质样本诊断->清洗/合成策略迭代->模型性能验证”的闭环流程,推动以数据质量为核心的模型持续优化。包括英文材料
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
学历+
数据科学+
https://roadmap.sh/ai-data-scientist
Step by step roadmap guide to becoming an AI and Data Scientist
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
还有更多 •••