夸克千问C端事业群-大模型图片数据策略运营-杭州
任职要求
1. 须具备2年以上AIGC图像生成领域实战经验,熟悉Stable Diffusion等主流生成架构的技术原理及优化路径 2. 在Civitai、Liblib等主流AI艺术社区有优质微调模型发布记录(需提供作品链接) 3. 具有专业的图像数据构建方法论,擅长高质量训练数据的采集、清洗及特征挖掘,能系统性构建垂直领域数据集 …
工作职责
1、搭建图片数据策略流程和产出数据策略方案,搭建图片数据建设Pipeline 2、系统化生产单图生图、图生视频等数据,通过多种途径生产满足要求的训练数据。 3、构建自动化+人工的数据采集链路,构建多模态数据标注体系 4、建设模型迭代评测的标准和链路,辅助算法进行模型迭代
1、高效承接大模型文本、图片、视频等数据标注业务需求,独立承担标注策略制定、项目管理、流程优化、质量把控等工作; 2、对优质内容有一定的判断力和敏感度,能够基于业务数据,进行模型效果监控、评估、分析、反馈,并推动模型优化链路迭代,打造数据飞轮,对模型进行内容改进策略建议; 3、与上下游产品技术通力合作,制定有效的数据策略,推进大模型效果提升和产品化目标达成; 4、同时统筹多个标注/评测项目的管理工作,负责外包、众包人员的组织与协调,推动项目成功交付; 5、 熟悉AI产品,对大模型行业发展及产品动态有充分认知,并能有效应用到实际业务。
1、参与境内外互联网网页、文档、代码等文本数据的发现、采集、处理及标注工作,完善相应平台和架构能力; 2、为文本大模型训练供给语料数据,为AI toC应用供给领域优质内容数据; 3、评估并提升训练数据的质量、多样性及标注准确性; 4、通过AI能力来赋能数据建设,提升数据效果及生产效率; 5、与模型及业务研发团队紧密协作,根据训练效果和业务指标反馈持续迭代数据策略。
1、主导大模型在线推理系统的性能攻坚,构建多节点多GPU的分布式推理架构,实现智能请求调度算法与异构硬件的极致性能调优; 2、研究低bit量化、稀疏化attention等解码加速技术,在保障精度前提下显著降低计算资源消耗; 3、设计高并发场景下的负载均衡方案,构建支持动态扩展的弹性计算架构,优化推理引擎运行时环境,实现毫秒级延迟与高QPS吞吐能力。
致力于构建高质量的大规模视觉训练数据集,支持图像、视频等多模态模型的研发。主导数据基础设施的设计与优化,确保数据具备良好的质量、多样性与可扩展性。 1. 开发并维护可扩展的数据基础设施,支持大规模图像和视频数据的采集、存储与管理; 2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化; 3. 实现可扩展且高效的工具,用于可视化、聚类以及深度理解数据; 4. 优化和并行化数据处理流程,以高效处理上亿级别的数据集; 5. 评估并提升训练数据的质量、多样性及标注准确性(包括但不限于caption生成); 6. 与模型研发团队紧密协作,根据训练效果和模型反馈持续迭代数据策略。