logo of bytedance

字节跳动AI数据平台架构师-智能创作(北/深/上/杭)

社招全职3年以上A125392地点:北京状态:招聘

任职要求


1、硕士及以上学历,计算机、人工智能等专业优先;
2、具备3年以上数据处理或模型训练工作经验,熟练掌握文本、多模态等非结构化数据处理方法,精通数据清洗、特征提取和数据增强等技术,能够解决数据工作中各种问题;
3、精通PythonJava等至少一种编程语言,具备良好的编码能力和代码质量意识,熟悉常用的数据处理、文本处理和图像处理库,能够高效地实现数据清洗和处理的算法和流程;
4、具备丰富的数据建模以及数据架构经验,能够对结构…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责智创AI平台大数据架构演进以及推进落地:根据不同领域场景大模型落地需求,提出大模型训练和优化数据规模、数据类型、数据结构等建议;
2、负责搭建大模型数据平台:支撑大模型数据的存储、预处理(去重、相似度计算、脱敏等)诉求,并且针对大模型场景、数据类型、数据规模有足够的扩展性,以支撑大模型数据集持续迭代,实现高质量数据集沉淀;
3、负责大模型数据分析:通过对文本、图像等数据内容特征深入分析,提炼有价值的数据集分类标签,为数据质量改进提供依据;
4、负责数据生成和数据增强:基于种子数据,运用大模型工具生成完善数据集。
包括英文材料
学历+
Python+
Java+
图像处理+
算法+
Hive+
还有更多 •••
相关职位

logo of bytedance
社招JLYE1

1、负责AIGC创作平台(MaaS)开发,包括但不限于:模型体验、Comfy推理引擎、AI自动工程化、智能运维与流量治理等,与团队共同打造AI全生命周期的技术中台。 2、负责高质量的设计和编码及系统稳定性优化; 3、参与系统瓶颈问题专项治理,解决系统高并发、大数据等问题,提高系统稳定性; 4、参与新技术的调研和落地。

更新于 2020-12-03北京
logo of bytedance
社招5年以上A193326

1、负责AIGC创作平台开发,主导海外AIGC业务交付链路的设计和实现,包括但不限于:模型调试、模型推理服务、AI自动工程化、智能运维与流量治理等,提升业务交付效率、提升线上资源利用率; 2、负责高质量的设计和编码及系统稳定性优化,参与系统瓶颈问题专项治理,解决系统高并发、大数据等问题,提高系统稳定性; 3、深入业务场景理解业务交付痛点,通过技术解决方案优化解决业务痛点问题; 4、参与新技术的调研和落地。

更新于 2024-09-30北京
logo of bytedance
社招3年以上A53336

1、负责智能创作AI平台大模型规模化训练数据自动化处理全流程相关开发工作,包括但不限于数据搜集、预处理、打标、入库、检索等; 2、负责构建针对不同场景、不同数据类型、不同数据规模有足够的扩展性的数据处理技术链路和框架建设,以支撑大模型数据集持续高效迭代,实现高质量数据集沉淀; 3、负责数据生成和数据增强,利用大模型工具生成来扩充和完善数据集。

更新于 2023-11-02上海
logo of bytedance
社招1年以上A188257

1、负责AIGC模型如StableDiffusion/LLM/VLM的轻量化结构设计和效果打磨,致力于研发效果/体积/计算量/功耗综合性能业界领先的预训练模型; 2、负责AIGC模型相关推理优化算法研究和落地,包括模型蒸馏、网络架构搜索与设计、稀疏、量化、MoE,软硬件协同设计等; 3、负责Diffusion/LLM/VLM领域高效模型研发,低成本微调,小样本训练,Prompt工程,RLHF研究和实现,侧重能够端侧部署的模型; 4、负责GAN/Diffusion/LLM/VLM领域前沿工作的研究和复现,包含数据,模型,评估,推理等方向; 5、负责面向端侧多个平台的GAN基础结构设计和效果优化,重点解决GAN的量化效果问题,落地抖音剪映等字节跳动系列产品,全面提升产品在多个平台上的算法和性能体验。

更新于 2024-02-07上海