传音AI数据工程师(J18919)
校招全职地点:上海状态:招聘
任职要求
1、本科及以上学历,计算机、软件工程、人工智能、数据科学等相关专业; 2、熟悉 Python 编程,了解常用数据处理库(Pandas、NumPy、Requests等); 3…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、参与海外社交媒体、新闻、电商等多源数据的采集与结构化解析; 2、负责数据清洗、去噪、格式化与语料质量评估; 3、参与大语言模型(LLM)训练语料的构建、筛选与样本设计; 4、辅助算法工程师完成语料标注、数据增强及模型效果分析; 5、基于算法需求探索文本聚类、相似度匹配、内容分类等数据处理方案。
包括英文材料
学历+
数据科学+
https://roadmap.sh/ai-data-scientist
Step by step roadmap guide to becoming an AI and Data Scientist
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Pandas+
[英文] 10 minutes to pandas
https://pandas.pydata.org/docs/user_guide/10min.html
This is a short introduction to pandas, geared mainly for new users.
[英文] Cookbook - pandas
https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook
This is a repository for short and sweet examples and links for useful pandas recipes.
https://www.kaggle.com/learn/pandas
Solve short hands-on challenges to perfect your data manipulation skills.
https://www.youtube.com/watch?v=2uvysYbKdjM
I'm super excited for this one. We're doing another complete Python Pandas tutorial walkthrough.
https://www.youtube.com/watch?v=Mdq1WWSdUtw
Filtering, Joins, Indexing, Data Cleaning, Visualizations
还有更多 •••
相关职位
社招3年以上研发类
1、负责AI模型训练数据集构建,如视觉生成、多模态模型训练数据集,包括但不限于半自动化实现数据生产、数据处理、数据标注、数据质量评估等,实现数据闭环,构建稳定高性能pipeline,构建高质量数据集; 2、负责终端侧多源、多端、多形态的数据分析及数据管理,匹配业务需求,构建充足的数据和高质量数据,充分支撑AI能力构建及AI业务; 3、与算法、产品团队等相关方沟通协作,参与数据标准制定、数据构建方案设计; 4、探索更高效的半自动化标注方式,以及更高上限的智能化数据迭代路径。
更新于 2025-04-28北京
社招
1. 构建高效的数据采集、处理与分析管道; 2. 利用AI和机器学习技术提升数据处理及模型性能; 3. 探索和应用自动化数据标注、智能预测、数据洞察等场景; 4. 与算法及业务团队协作,推动数据驱动的AI解决方案落地。
更新于 2026-01-05深圳|长沙
社招3年以上研发类
1.数据采集方案设计 根据影像算法需求,设计多场景、多维度数据采集方案,覆盖不同光照条件、设备类型及环境变量。 制定传感器参数配置标准,确保原始数据的高信噪比与色彩保真度。 2.数据增强与合成 开发基于物理模型的数据增强工具,扩充数据多样性; 利用生成式AI技术(如GAN、NeRF)合成稀缺场景数据,解决长尾数据分布问题。 数据质量评估与闭环 设计数据质量评价体系,通过算法预筛选+人工复核确保数据质量达标; 建立数据-算法协同优化闭环,根据模型训练效果反向迭代数据采集策略。 3.数据资产管理与合规 构建企业级影像数据库,设计高效检索系统,实现数据版本化管理与权限控制; 确保数据采集符合隐私保护与版权合规要求,制定数据安全使用规范。
杭州