字节跳动开源大数据引擎资深专家 - EMR/大数据云平台
任职要求
1、计算机相关专业,3年以上大数据或数据库内核研发经验; 2、熟练使用 C/C++/Java/Rust 一种或多种编程语言; 3、熟悉开源大数据开源生态组件或同类商业化的分析型数据库; 4…
工作职责
1、参与字节跳动EMR 开源大数据内核研发,打造极速数据分析新范式; 2、深度参与相关开源社区,助力大数据产品提升开源影响力; 3、协助客户处理生产业务中的海量数据,解决疑难问题,发挥数据价值; 4、构建EMR大数据引擎技术竞争力,打造业界领先的引擎生态平台。
1、负责Data+AI方向的ToB产品的演进规划、竞争力建设和研发,打造业内领先的产品; 2、负责计算和存储引擎内核的深度优化,领先开源社区和行业,给客户提供增量价值; 3、负责大模型数据处理框架的研发、数据处理算子的研发,引领市场需求; 4、与火山引擎方舟、机器学习平台等产品深度生态对接,打造AI全链路组合竞争力; 5、支撑客户的预训练、后训练、模型蒸馏、AI搜索、RAG、Agent等场景的数据需求。
我们致力于打造银行信贷领域的新一代“智能决策大脑”。我们以行业与产业研究为锚点,以数据智能为引擎,深度融合资深信贷专家的经验与海量异构数据洞察,构建面向信贷全生命周期的领域专属决策大模型。 1.主导信贷大模型的后训练体系:通过有监督微调(SFT)、奖励模型(RM)训练、人类反馈强化学习(RLHF)、直接偏好优化(DPO)等领域领先技术,让模型不仅“会回答”,更能“可解释、答得准、判得稳、符合专家直觉”,实现与信贷业务目标的深度对齐。 2.构建垂直领域智能Agent系统的能力:能主导信贷场景下Intelligent Agent的核心框架设计,融合感知、规划、执行与持续学习机制,并通过知识图谱、RAG、NL2SQL等技术打通非结构化知识、结构化数据与自然语言交互,实现从行业洞察、风险画像到决策支持的端到端自动化。 3.打造高质量领域数据飞轮:从零构建面向信贷场景的指令与偏好数据集,设计数据配比、清洗、增强与合成策略,持续提升数据效率与泛化能力——因为你知道,好模型的背后,是更聪明的数据。 4.建立科学严谨的评估体系:构建覆盖准确性、逻辑一致性、风险敏感度、幻觉控制等多维度的自动化评测 pipeline,用数据驱动模型迭代,确保每一个版本都比上一个更可靠、更可用。 5.站在AI+金融的最前沿:紧密跟踪全球大模型的最新进展(如新型偏好学习、多Agent协作等),快速将学术突破转化为业务生产力,解决真实世界中复杂、高 stakes 的信贷决策挑战。同时将领域化的研究转化为高质量的顶会论文,形成持续学术影响力。
1、负责面向客户建设有市场竞争力的大数据开发治理套件、EMR、LAS等大数据平台类产品,丰富火山引擎数据中台产品矩阵,洞察行业的机会点,持续挖掘产品的商业化潜力; 2、能够抽象各行业客户需求,并将需求转化为高品质的产品设计或解决方案; 3、与商业化销售/解决方案配合,对外部客户进行产品推介和宣讲; 4、制定产品的GTM策略和定价,保障产品在行业中的竞争力。