logo of transsion

传音AI数据工程师(J18919)

校招全职地点:上海状态:招聘

任职要求


1、本科及以上学历,计算机、软件工程、人工智能、数据科学等相关专业;
2、熟悉 Python 编程,了解常用数据处理库(Pandas、NumPy、Requests等);
3…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与海外社交媒体、新闻、电商等多源数据的采集与结构化解析;
2、负责数据清洗、去噪、格式化与语料质量评估;
3、参与大语言模型(LLM)训练语料的构建、筛选与样本设计;
4、辅助算法工程师完成语料标注、数据增强及模型效果分析;
5、基于算法需求探索文本聚类、相似度匹配、内容分类等数据处理方案。
包括英文材料
学历+
数据科学+
Python+
Pandas+
还有更多 •••
相关职位

logo of honor
社招3年以上研发类

1、负责AI模型训练数据集构建,如视觉生成、多模态模型训练数据集,包括但不限于半自动化实现数据生产、数据处理、数据标注、数据质量评估等,实现数据闭环,构建稳定高性能pipeline,构建高质量数据集; 2、负责终端侧多源、多端、多形态的数据分析及数据管理,匹配业务需求,构建充足的数据和高质量数据,充分支撑AI能力构建及AI业务; 3、与算法、产品团队等相关方沟通协作,参与数据标准制定、数据构建方案设计; 4、探索更高效的半自动化标注方式,以及更高上限的智能化数据迭代路径。

更新于 2025-04-28北京
logo of vivo
社招3年以上研发类

1.数据采集方案设计 根据影像算法需求,设计多场景、多维度数据采集方案,覆盖不同光照条件、设备类型及环境变量。 制定传感器参数配置标准,确保原始数据的高信噪比与色彩保真度。 2.数据增强与合成 开发基于物理模型的数据增强工具,扩充数据多样性; 利用生成式AI技术(如GAN、NeRF)合成稀缺场景数据,解决长尾数据分布问题。 数据质量评估与闭环 设计数据质量评价体系,通过算法预筛选+人工复核确保数据质量达标; 建立数据-算法协同优化闭环,根据模型训练效果反向迭代数据采集策略。 3.数据资产管理与合规 构建企业级影像数据库,设计高效检索系统,实现数据版本化管理与权限控制; 确保数据采集符合隐私保护与版权合规要求,制定数据安全使用规范。

杭州
logo of baidu
实习MEG

-负责模型训练数据集构建,包括数据采集、数据清洗与处理、标签体系构建等 -参与数据处理pipeline建设,包括数据存储、检索、特征计算等,提升模型数据供给效率与体验 -负责根据模型训练效果进行数据分析,匹配业务需求,构建充足高质量的数据 -调研探索高效的数据集构建方案

更新于 2025-10-28北京
logo of tcl
实习研发技术类

1、多模态数据处理与标注 根据机器人项目需求,对多种类型的数据(文本、图像、音频等)进行高质量标注与分类,确保数据的准确性与一致性;参与多模态数据(语音、图像、动作轨迹等)清洗、筛选与结构化处理,优化数据质量,为模型训练提供可靠的输入。 2、数据质量评估与优化 设计并执行数据质量评估流程,发现并解决数据中的问题;提出数据标注流程的优化建议,提升标注效率与质量。 3、模型反馈与迭代支持 与算法工程师协作,分析模型训练结果,识别数据中的潜在问题并提出改进方案;根据模型需求,参与数据集的扩充与多样化处理,支持模型性能的持续优化。 4、跨部门协作 与产品、算法及工程团队紧密合作,理解业务需求,确保数据标注与处理符合项目目标;参与团队内部的知识分享与培训,对AI及具身智能技术有更进一步的了解。

更新于 2025-10-31上海