百度数据标注算法工程师(J71372)
任职要求
-3-5年计算机视觉、计算图形学、三维重建等领域工作或研究经验,有自动驾驶相关经验优先 -计算机、电子、自动化、应用数学等相关专业硕士或以上学历,博士优先 -具备扎实的Python/C++开发能力,有良好的编程习惯 -对激光雷达/图像/融合的目标检测、目标跟踪、三维重建、视频分析等技术中的至少1个有深入的科研、研发经验 -加分项:具有自动驾驶数据自动标注经验优先 -加分项:具有自动驾驶感知算法研发经验优先,熟悉BEV、Transformer等技术优先 -加分项:计算机视觉或机器人相关领域顶级会议或期刊CVPR、ICCV、ICRA、IROS、PAMI等发表论文者优先
工作职责
-负责设计和研发全自动标注算法,提升感知车端/云端模型所需数据的标注自动化比例 -负责设计和研发半自动交互标注算法,提升感知车端/云端模型所需数据人工标注的效率 -负责设计和研发标注质检算法,提升感知标注数据的质量 -负责优化标注数据生产框架,提升数据生产在大规模计算资源上的运行效率 -标注任务包括但不限于:点云检测/识别/分割、图像检测/识别/分割等
大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 ● 数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 ● 语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; ● 权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 ● 语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 ● 智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 ● 技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。
大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 1、数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 2、语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 4、语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 5、智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 6、技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。

公司介绍: 文远知行(WeRide)成立于 2017 年,是全球领先的 L4 级自动驾驶科技公司,致力于“以无人驾驶改变人类出行”,已在全球超过 25 个城市开展自动驾驶研发、测试及运营,累积自动驾驶里程超1600万公里,应用场景覆盖智慧出行、智慧货运和智慧环卫,形成自动驾驶出租车、自动驾驶小巴、自动驾驶货运车、自动驾驶环卫车、高阶智能驾驶等五大产品矩阵,提供网约车、随需公交、同城货运、智能环卫、高阶智能驾驶解决方案等多种服务。 凭借“1个平台+3大场景+5大产品”的多元商业化战略,文远知行商业营收居同类自动驾驶企业之首,已与多家全球顶级主机厂和一级供应商达成战略合作伙伴关系,包括雷诺日产三菱联盟、宇通集团、博世、广汽集团等,不断为人类出行提供更多新选择。 Data团队介绍: 在无人车等行业中,数据的重要性不言而喻,尤其是当模型越来越大,甚至算法建模流程逐渐从data-driven向data-centric转变的趋势下,对数据的处理越来越被重视。 数据组的是打通自动驾驶数据闭环链路,包括数据采集、数据索引、数据挖掘、数据标注、模型训练等多个方面,打造一个完整的闭环,加快自动驾驶算法的迭代速度。同时,数据组也开发了多个数据分析和处理的工具链,全方位打造企业级的大数据平台。 自动化标注组介绍: 在数据处理中,数据标注是重要一环,我们希望在传统人工标注中加入更多智能,更多地让模型来自动、半自动地完成数据标注,以解决人工标注中的成本、效率和数据质量等问题,有力地“赋能”业务。 与具体业务中的模型开发不同,标注阶段有更加充足的计算资源、有更加丰富的数据,可以选择更大更新的模型(包括大模型),同时还有人类在环(Human-in-the-loop) -- 这些独有的特点非常有意思,更重要地,它们也是自动化标注这件事可以成立的重要原因。 工作职责: 我们正在寻找一位自动化标注工程师,负责设计和开发自动驾驶数据自动化和半自动化标注算法,并与标注工具开发团队协作,研发标注工具优化方案,核心职责包括: 设计和开发自动驾驶数据自动化和半自动化标注算法,提高标注效率和准确性,包括但不限于:点云检测/识别/分割、图像检测/识别/分割等; 与标注工具开发团队协作,研发标注工具优化方案,提高标注工具的易用性和功能性; 研究和探索新的自动化标注技术和算法,不断提升数据标注的效率和准确性。