传音大模型语言数据标注实习生(J18213)
实习兼职地点:重庆状态:招聘
任职要求
1.英专、汉语言、语言学、小语种、计算语言学、语言学及应用语言学、语言与言语信息处理专业等,了解过计算语言学或语料库语言学等方向课程,本科及以上学历,理论语言学基础扎实过硬,对应用语言学知识到工业界有强烈的兴趣。 2.英语水平良好,有雅思、托福成绩证书优先。 3.能够一周连续出勤至少四天优先。 4.会基础编程,能使用python进行文本处理、正则表达式优先。 5.…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.学习并参与对话系统、大模型前沿方向的数据运营工作,如意图分类、实体识别、文档摘要、角色扮演、AI搜索、文生图等,重点负责模型的数据集制作和标签管理。了解业务流程和算法流程,完成复杂标注任务的设计,在此基础上对原始数据进行处理,包括数据的爬取、筛选和清洗,并制定标注标准。 2.培训海外标注团队,进行数据质检,把控标注质量,确保数据的准确性和一致性。 3.按项目要求对模型进行评测和效果分析,完成复杂的数据分析任务,及时反馈问题,根据模型效果调整数据和标注策略。
包括英文材料
学历+
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
还有更多 •••
相关职位
实习网易云音乐
1.语料数据收集处理与标注:参与社交场景的文本对话语料收集、清洗和标注工作;协助 LLM、TTS 语音数据的处理、分类和质量评估;设计并执行语料标注规范,确保数据质量;协助寻找音源,能够使用AI工具合成音频数据。 2.模型评测与质量控制:参与大模型输出结果的人工评测和质量分析;执行语料质量检查流程,确保标注准确性;协助建立评测标准,参与模型输出质量评估。 3.数据分析与报告:记录并分析标注过程中的问题和改进点;撰写数据处理和评测报告。
更新于 2025-07-11杭州
实习A84101
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责大模型工科领域相关数据的标注工作,确保标注数据的准确性和规范性,为模型训练提供高质量数据支撑; 2、参与大模型的评测任务,针对工科场景下的模型生成能力进行测试和评估,分析模型表现,提出改进建议; 3、与模型研发团队紧密互动,深入理解模型需求,设计符合工科专业场景的数据标注标准和评测方案; 4、处理多工科领域相关的数据任务,涵盖土木、力学、测绘、机械工程、计算机、能源等专业场景,保障数据的全面性和适用性; 5、运用专业知识及Python等工具,辅助进行数据处理脚本的编写、优化,提升数据处理效率。
更新于 2025-07-22北京
