字节跳动AI数据平台架构师-智能创作(北/深/上/杭)
任职要求
1、硕士及以上学历,计算机、人工智能等专业优先; 2、具备3年以上数据处理或模型训练工作经验,熟练掌握文本、多模态等非结构化数据处理方法,精通数据清洗、特征提取和数据增强等技术,能够解决数据工作中各种问题; 3、精通Python、Java等至少一种编程语言,具备良好的编码能力和代码质量意识,熟悉常用的数据处理、文本处理和图像处理库,能够高效地实现数据清洗和处理的算法和流程; 4、具备丰富的数据建模以及数据架构经验,能够对结构…
工作职责
1、负责智创AI平台大数据架构演进以及推进落地:根据不同领域场景大模型落地需求,提出大模型训练和优化数据规模、数据类型、数据结构等建议; 2、负责搭建大模型数据平台:支撑大模型数据的存储、预处理(去重、相似度计算、脱敏等)诉求,并且针对大模型场景、数据类型、数据规模有足够的扩展性,以支撑大模型数据集持续迭代,实现高质量数据集沉淀; 3、负责大模型数据分析:通过对文本、图像等数据内容特征深入分析,提炼有价值的数据集分类标签,为数据质量改进提供依据; 4、负责数据生成和数据增强:基于种子数据,运用大模型工具生成完善数据集。
1、负责AIGC创作平台(MaaS)开发,包括但不限于:模型体验、Comfy推理引擎、AI自动工程化、智能运维与流量治理等,与团队共同打造AI全生命周期的技术中台。 2、负责高质量的设计和编码及系统稳定性优化; 3、参与系统瓶颈问题专项治理,解决系统高并发、大数据等问题,提高系统稳定性; 4、参与新技术的调研和落地。
1、负责AIGC创作平台开发,主导海外AIGC业务交付链路的设计和实现,包括但不限于:模型调试、模型推理服务、AI自动工程化、智能运维与流量治理等,提升业务交付效率、提升线上资源利用率; 2、负责高质量的设计和编码及系统稳定性优化,参与系统瓶颈问题专项治理,解决系统高并发、大数据等问题,提高系统稳定性; 3、深入业务场景理解业务交付痛点,通过技术解决方案优化解决业务痛点问题; 4、参与新技术的调研和落地。
1、负责智能创作AI平台大模型规模化训练数据自动化处理全流程相关开发工作,包括但不限于数据搜集、预处理、打标、入库、检索等; 2、负责构建针对不同场景、不同数据类型、不同数据规模有足够的扩展性的数据处理技术链路和框架建设,以支撑大模型数据集持续高效迭代,实现高质量数据集沉淀; 3、负责数据生成和数据增强,利用大模型工具生成来扩充和完善数据集。
1、负责AIGC模型如StableDiffusion/LLM/VLM的轻量化结构设计和效果打磨,致力于研发效果/体积/计算量/功耗综合性能业界领先的预训练模型; 2、负责AIGC模型相关推理优化算法研究和落地,包括模型蒸馏、网络架构搜索与设计、稀疏、量化、MoE,软硬件协同设计等; 3、负责Diffusion/LLM/VLM领域高效模型研发,低成本微调,小样本训练,Prompt工程,RLHF研究和实现,侧重能够端侧部署的模型; 4、负责GAN/Diffusion/LLM/VLM领域前沿工作的研究和复现,包含数据,模型,评估,推理等方向; 5、负责面向端侧多个平台的GAN基础结构设计和效果优化,重点解决GAN的量化效果问题,落地抖音剪映等字节跳动系列产品,全面提升产品在多个平台上的算法和性能体验。