字节跳动原型验证工程师-Data(杭州)
任职要求
1、熟练使用汇编/C/Python/Shell; 2、熟悉常用的数据结构和算法; 3、熟悉Linux系统,具备内核调试能力; 4、符合以下条件者优先: 1)熟悉ARM/RISC-V架构; 2)熟悉编译原理; …
工作职责
1、使用EMU/FPGA对CPU/SOC进行硅前功能和性能验证; 2、使用样片进行硅后验证,发现并分析定位问题,提出解决方案; 3、开发原型专用测试工具,如随机指令发生器和Baremetal OS等。
团队介绍:Data AML是字节跳动的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。 1、负责豆包模型AIGC相关技术的研究和开发,包括图像、视频或3D生成&编辑等,探索基于扩散和自回归的技术路线,以实现高质量的输出; 2、解决生成视频/图像中的时间一致性、空间连贯性和可控性等核心研究难题; 3、紧跟生成方向(扩散模型、Transformer、生成对抗网络等)的最新研究动态,并对创新想法进行原型验证; 4、依托公司和业界的大模型和基础CV技术,构建面向ToB业务应用的多模态算法能力,帮助业务取得成功。

1. AI数据资产体系建设:负责核心AI数据资产体系,结合业务需求与数据算法能力,主导大数据的处理、解析、分析、挖掘、研发及优化工作。 2. 合成数据与数据多样性:主导结合场景的合成数据多样性生产: 探索基于 AI 模型的合成数据技术,主动解决特定领域(如逻辑推理、长尾语种)的数据稀缺问题。 3. 基于大模型做特征筛选、小模型蒸馏、小模型效果评估,主导欺诈评分等能力建设上。 4. 数据驱动的生产闭环:基于评测/资产结论,将其转化为工程层面的“数据增强策略”。通过反馈快速构建数据生产流程形成数据供给的闭环。 5. 持续跟踪及探索Data + AI方向的行业进展(如Data Agent、AIOps、湖仓一体智能优化等),主动开展技术预研与原型验证,推动先进技术在公司中的适配与规模化应用。
1,设计和实现开创性的 continual pretraining、mid-training/post-training 算法,在 continual learning (on-policy distillation, self distillation, rft, etc)、data mixture modeling等方向上实现基座模型特定能力真实、显著的提升,支持新一代旅行消费应用的诞生。 2,高质量合成数据建设,通过研发自动化数据生产算法和pipeline,支持模型能力持续提升。 3,构建科学、严谨的算法评测体系,量化模型真实能力、建立算法指标和下游应用效果的关联。 4,跟进领域前沿、掌握领域发展趋势。

1,设计和实现开创性的 continual pretraining、mid-training/post-training 算法,在 continual learning (on-policy distillation, self distillation, rft, etc)、data mixture modeling等方向上实现基座模型特定能力真实、显著的提升,支持新一代旅行消费应用的诞生。 2,高质量合成数据建设,通过研发自动化数据生产算法和pipeline,支持模型能力持续提升。 3,构建科学、严谨的算法评测体系,量化模型真实能力、建立算法指标和下游应用效果的关联。 4,跟进领域前沿、掌握领域发展趋势。