logo of meituan

美团大模型数据实习生

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


NLP/ CV / 语音方向有深入的理解以及研究经历,有实际处理过图、文、音等至少一类数据的项目或实习经验者优先

能保证至少3个月的全职实习,6个月及以上者优先

工作职责


数据构建与处理: 深入参与大模型训练数据的设计与构建,亲手处理包括但不限于文本数据,平行语料、图文交错、图生图、图像序列等多样化数据。负责数据的采集、清洗、标注和预处理工作,为模型训练提供高质量的数据基础

模型训练与调优:参与或主导SFT / RL等后训练探索,提升模型在各类下游任务中的实际应用能力

探索如何通过数据和训练策略,激发模型采样多模态token的能力,并将其应用于解决真实物理世界的问题,参与数据驱动模型能力提升的全过程
包括英文材料
NLP+
相关职位

logo of bytedance
实习A09946

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 1、探索把AI技术应用在大模型的全生命周期中,包括不限于数据建设、数据生成、指令微调、偏好对齐等; 2、建设高质量、多样性的视频数据集; 3、探索相关应用落地场景,包括视频生成、视频理解等。

更新于 2025-03-21
logo of bytedance
实习A127378

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:抖音集团内容质量与数据服务平台(DOUYIN GROUP CONTENT QUALITY AND DATA SERVICE,简称CQC)是负责抖音集团今日头条、抖音、西瓜等产品内容安全与质量工作的团队,在各产品运营增长方面开展支持工作,为产品线提供数据服务的基础支持。平台下设内容质量中心、数据中心及运营支持中心,在全国10余个城市有业务分布。 1、与产品、算法团队协作,根据模型迭代方向提供高质量数据; 2、负责大模型数据生产全流程,负责数据集标准设计、自动化链路搭建、数据集评估和质量把控,对最终数据交付负责; 3、通过LLM应用、工具和链路迭代,提升数据生产的效率,并持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。

更新于 2025-08-25
logo of bytedance
实习A178635

日常实习:面向全体在校生,为符合岗位要求的同学提供3个月以上的项目实践机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责为豆包大模型提供理科竞赛级(数学/代码/理科...)知识的数据工作,包括标准/方法的设计、数据的生产和检验; 2、评价模型效果,并调整优化竞赛问题的整体解答思路,判断解答的优缺点; 3、通过模型&人工结合的方式,设计适用于大模型的复杂逻辑推理的数据生产方法; 4、与研发工程师协作,讨论确定现状和问题,明确下一步提升模型推理等能力的方案。

更新于 2025-02-17
logo of bytedance
实习A84101

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责大模型工科领域相关数据的标注工作,确保标注数据的准确性和规范性,为模型训练提供高质量数据支撑; 2、参与大模型的评测任务,针对工科场景下的模型生成能力进行测试和评估,分析模型表现,提出改进建议; 3、与模型研发团队紧密互动,深入理解模型需求,设计符合工科专业场景的数据标注标准和评测方案; 4、处理多工科领域相关的数据任务,涵盖土木、力学、测绘、机械工程、计算机、能源等专业场景,保障数据的全面性和适用性; 5、运用专业知识及Python等工具,辅助进行数据处理脚本的编写、优化,提升数据处理效率。

更新于 2025-07-22