夸克千问C端事业群-大模型数据研发高级专家-北京/杭州
任职要求
1. 主导过LLM、VLM、ASR或TTS大模型预训练及微调语料数据建设工作,有丰富的数据交付经验; 2. 精通大规模分布式数据处理技术(如spark/flink/ray等),拥有从0到1搭建全模态数据处理pipeline的丰富实战经验; 3. 深刻理解大模型训练数据的特性与需求…
工作职责
1. 负责大模型数据研发方向,为LLM、VLM、ASR、TTS及omni model的训练供给优质语料数据,推动各业务场景提升模型训练效果; 2. 与算法团队协同、搭建各模态数据处理pipeline,利用业界先进技术对数据进行清洗、去重、打标、标注、圈选、打包,交付优质数据进行模型训练,提升整体交付效率和数据质量; 3. 与数据采集团队协同,推动前沿数据获取策略的研发与落地,探索合成数据技术,主动解决特定领域或模-态的数据稀缺与多样性挑战; 4. 构建各模态数据分类&质量体系及数据画像,对数据进行多维度、细粒度分析,基于模型训练效果反馈进行数据挖掘,指导数据收录优化方向,构建数据飞轮。
1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作,完善相应平台和架构能力; 2、为文本大模型训练供给语料数据,为AI toC应用供给领域优质内容数据; 3、评估并提升训练数据的质量、多样性及标注准确性; 4、通过AI能力来赋能数据建设,提升数据效果及生产效率; 5、与模型及业务研发团队紧密协作,根据训练效果和业务指标反馈持续迭代数据策略。
致力于构建高质量的大规模视觉训练数据集,支持图像、视频等多模态模型的研发。主导数据基础设施的设计与优化,确保数据具备良好的质量、多样性与可扩展性。 1. 开发并维护可扩展的数据基础设施,支持大规模图像和视频数据的采集、存储与管理; 2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化; 3. 实现可扩展且高效的工具,用于可视化、聚类以及深度理解数据; 4. 优化和并行化数据处理流程,以高效处理上亿级别的数据集; 5. 评估并提升训练数据的质量、多样性及标注准确性(包括但不限于caption生成); 6. 与模型研发团队紧密协作,根据训练效果和模型反馈持续迭代数据策略。
1、参与设计并实现高性能、可扩展、分布式大数据处理平台,通过数据驱动模型训练,支撑夸克智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与前沿模型研究中数据解决方案的设计、开发和维护; 3、通过AI能力来赋能数据建设,持续提升平台数据生产效率、易用性、降低算法使用成本
阿里巴巴智能信息事业群,聚焦AI在信息服务赛道的创新应用,从工具到服务,持续为用户提供高效、智能的AI应用。智能信息事业群核心产品为夸克、通义、UC浏览器、书旗小说、超级汇川等,以多产品矩阵,覆盖横跨各年龄段的7亿+用户人群,服务超10万+客户。 负责智能信息基础技术平台系统相关研发,包括不限于以下方向: 1、构建高效可靠的云原生容器平台、提出资源优化模型以提升业务资源效率、参与机器学习工程平台的建设和优化,以及运用技术和标准化方案确保平台服务的稳定性和可维护性。 2、负责开发和优化大模型应用开发框架,创造高效的搜索应用解决方案,并深度参与智能信息系统的基础架构与组件开发,以确保技术的高效集成与实际落地。 3、开发和优化搜索引擎,高并发检索、大数据分布式存储及流批计算等系统,深入搜索业务需求设计实现解决方案,不断提高业务性能、系统稳定性,提升系统效率和成本效益。 4、开发和优化推荐引擎、模型预测和向量检索等基础系统,深入参与信息流推荐业务以实现业务需求,同时基于业务洞察设计新平台或改进现有系统,提升系统效率和成本效益。 5、开发和优化实验平台与系统,紧跟AB测试技术前沿,为业务提供精准的实验设计和分析、优化关键指标,并应用算法提高业务参数寻优的效果和效率。 6、具备数理统计基础,在数据科学、数据分析方向有经验者优先。