网易AI大模型学科/翻译评测标注岗
任职要求
一、岗位工作内容 (一)大模型数据处理与标注 1.对大模型生成的数学题结果,依据数学知识准确判断答案对错,并按规范进行标注。 2.深度剖析答案解析过程,核查其准确性与逻辑性,若有错误或不清晰处详细记录。 3.围绕数学题从多方面标注关键信息,如难度、知识点等,助力大模型优化。 4.结合大模型标注结果,对其标注结果进行数据分析。 (二)数据采集工作 1.依照词典笔更新需求规划数据采集方案,明确采集途径与时间安排。 2.严格检查采集数据质量,按标准分类存储,为词典笔迭代提供有力数据支撑。 二、岗位要求 (一)知识技能 1…
工作职责
一、岗位工作内容 (一)大模型数据处理与标注 1.对大模型生成的数学题结果,依据数学知识准确判断答案对错,并按规范进行标注。 2.深度剖析答案解析过程,核查其准确性与逻辑性,若有错误或不清晰处详细记录。 3.围绕数学题从多方面标注关键信息,如难度、知识点等,助力大模型优化。 4.结合大模型标注结果,对其标注结果进行数据分析。 (二)数据采集工作 1.依照词典笔更新需求规划数据采集方案,明确采集途径与时间安排。 2.严格检查采集数据质量,按标准分类存储,为词典笔迭代提供有力数据支撑。 二、岗位要求 (一)知识技能 1.数学功底扎实,熟悉小初高大学数学知识,能精准判断数学题答案与解析。 2.掌握数据采集流程与工具,会基本信息检索与处理,了解数据标注流程规范。 (二)个人素质 1.工作认真负责,对数据质量高度负责,注重细节。 2.学习能力强,能快速掌握新知识技能以适应工作。 3.具备团队协作精神,能与同事有效沟通合作。 (三)教育背景 本科在读及以上学历,数学、统计学、计算机科学、信息管理等相关专业优先。 (四)其他要求 1.每周出勤 5 天,实习时长最少3个月,4个月以上优先。 2.熟练使用 Word、Excel 等办公软件。
团队介绍:字节跳动ByteDance Research专注于人工智能领域的前沿技术研究,涵盖了机器翻译、视频理解基础模型、机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。 课题介绍: 我们利用Al技术进行药物的自动发现和设计,大幅降低药物开发的成本,推动药物开发的范式转移。主要利用深度学习进行大分子药物的设计。 领域优势:团队在生成式蛋白质设计、蛋白质构象预测以及冷冻电镜解析等领域取得了业界瞩目的成果。 在生成式蛋白质设计方面,团队研发了基于大规模蛋白质语言模型的序列设计方法LM-Design,大幅提高了蛋白质序列设计的准确度与效率;研发了结合扩散模型与语言模型的新一代蛋白质基础模型DPLM和DPLM-2,首次全面统一了蛋白质序列和结构的联合建模、理解与生成;研发了基于偏好优化的抗体设计方法AbDPO,能够设计出同时满足多种性质和能量要求的抗体。在蛋白质动态构象预测方面,团队研发了ConfDiff等模型,准确预测了蛋白质的构象变化,加深了对蛋白质生物过程的理解,还为新药研发提供了可靠的理论基础。冷冻电镜解析方面,团队研发了CryoSTAR电镜解析工具和CryoFM冷冻电镜基础模型,结合人工智能技术和高分辨率成像,极大地提升了生物大分子结构解析的速度和精度。这一技术有助于揭示复杂生物分子体系的构象特征和动态变化,为药物靶点的发现与设计提供了强有力的支持。 团队的研究成果多次发表在ICML、NeurIPS、ICLR等顶级学术会议上,得到学术界和业界的广泛认可。 1、开发自然科学的基础大模型,用于蛋白质结构预测、分子构象生成和蛋白质设计; 2、利用公共基准和数据库评估新的AI/ML方法; 3、与多学科团队密切合作,将创新算法应用于解决前沿挑战。
部门介绍 图像与多模态实验室致力于构建涵盖语言、视觉、语音等多种模态的基础模型,支持多模态感知、理解、推理、生成与编辑等核心任务。我们的目标是为模型应用提供世界一流的基础模型保障,推动从纯语言任务到多模态任务的拓展,并实现从数字世界到物理世界的深度融合。 岗位职责及目标 1、探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化; 2、探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成; 3、探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力; 4、探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能;
1、深入理解AI大模型,了解娱乐AI场景玩法,通过数据挖掘、数据合成、人工构造等方式生产游戏/剧本/故事体验等高质量数据集,对数据生成质量和效率负责; 2、与算法产品团队密切协作,积极提供有针对性的数据合成策略和建议,共同闭环验证数据在模型实验上的有效性,提升数据可用性与价值; 3、能通过PE、代码完成数据预处理、分析和清洗,探索更高效的数据生产方式; 4、通过输出和带教,提升数据团队对技术和大语言模型的了解,教授应用技巧,推动团队达成业务目标。