高德地图高德-数据科学家(北京)-信息工程专项
任职要求
1. 硕士及以上学历,统计学、数学、计算机等相关专业优先。 2. 3年以上数据分析/数据科学相关经验,有交易、搜索、广告或内容等互联网业务分析经验优先。 3. 熟悉数据埋点体系,有埋点设计、验收、治理实…
工作职责
1. 负责高德信息业务的数据科学相关工作,搭建看板体系和分析框架,支持业务决策。 2. 结合业务场景推动数据产品建设,沉淀通用分析能力和数据应用方案。 3. 参与数据治理与数仓建设,推动指标口径统一、指标管理、数据质量提升和资产沉淀。 4. 与产品、研发、运营、数据开发等团队协同推进项目落地,并结合Agenttic AI能力提升全流程效率。
作为语料科学家,你将负责构建和优化驱动垂类基座大模型的核心“燃料”。你不仅需要深厚的数据工程能力,更需具备极佳的数据审美,通过系统化、算法化的手段,将海量非结构化金融信息转化为具备严谨逻辑、专业深度与对齐规范的高质量语料,全方位提升模型在金融场景下的逻辑推理、合规对话与复杂决策能力。 核心职责: 1. 语料体系全生命周期优化: 负责大模型各阶段(Pre-training, SFT, RLHF)语料的构建与迭代。通过体系化扩展、高精度清洗、去重及去噪,定义并迭代金融领域的“高质量数据”标准。 2. 关键能力专项驱动: 针对性优化模型的逻辑推理、多指标计算、财报分析及代码编写能力。设计并实施数据配比实验(Data Mixture),探索知识密度与模型效果的缩放定律(Scaling Laws)。 3. 合成数据与 Agentic 仿真: 研发前沿的合成数据(Synthetic Data)技术,利用 Self-Instruct、Agentic-RL 等手段合成高质量的多轮决策轨迹、长文档推理链(CoT),解决金融场景下的长尾数据稀缺问题。 4. 数据标注与 RLHF 反馈机制:制定涵盖金融专业性、逻辑严密性及合规性的多维度标注方案,构建高质量的偏好数据集,通过人类反馈引导模型符合行业从业者的价值观与专业审美。 5. 基准测试 (Benchmark) 构建: 针对性构建涵盖如金融资格考试、财报解析、风险识别、投研策略等维度的自动化及人工评测基准。通过 Benchmark 结果精准反查数据短板,实现“以测促练”的闭环迭代。
1.与数据科学家和算法工程师合作,负责算法特征 & 样本数据开发建设,包括理解特征需求、系统架构优化设计以提升性能和保障可靠性,实现用于深度学习模型的特征需求并优化特征存储解决方案确保离在线特征一致性和可访问性; 2.深入理解业务应用场景,为业务快速接入平台提供方案和技术支持,同时负责平台的指标体系建设和成本优化,推动平台快速发展和高效迭代; 3.优化特征计算和查询流程,提高特征提取的效率和可扩展性,监控特征全链路的性能,分析数据波动和血缘,建立数据质量体系; 4.编写技术文档,为团队成员提供培训和支持,负责研究算法数据平台相关前沿技术,并在项目中落地实施。
-设计并构建高效的自动驾驶数据仓库架构,包括数据模型设计、ETL过程开发、数据服务构建等 -设计实现高效的数据存储引擎,确保PB级大规模数据的高效存储,快速加载,并确保数据的准确性和一致性 -负责输出不同业务模型训练、评测数据高效存取方案,有效支持自动驾驶模型训练 -与数据科学家和数据分析师合作,根据业务需求进行数据仓库的扩展和定制 -负责推动各类自动驾驶业务流接入数据仓库,帮助业务提升效率
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播业务体验优化相关数据科学工作,结合业务场景,以数据驱动直播业务的体验优化; 2、负责体验数据基建,包括埋点体系设计、指标定义,以及相对应的线上监控能力建设; 3、负责体验优化实验设计与分析,完善实验规范,优化实验策略; 4、把握所在方向的数据科学工作规划,挖掘体验优化潜力,发现并量化线上问题,判断收益空间,保障落地效果; 5、探索前沿数据科学分析方法,实际应用于契合业务场景的体验优化工作; 6、探索工程化智能化分析及挖掘方法,以提升泛体验优化工作效率。