字节跳动机器学习平台研发工程师-Data
任职要求
1、扎实的编程基础、良好的编程风格与工作习惯; 2、熟悉面向对象开发,熟练掌握一种静态语言(Go/C++/Java/C#等); 3、熟悉至少一种动态语言(Python/Perl/Ruby/Javascript等); 4、具有良好的产品意识,重视用户体验; 5、具有独立解决问题的能力,良好的团队合作意识和沟通能力; 6…
工作职责
1、平台化产品后端开发,熟练掌握字节跳动业界领先的超大规模推荐系统全流程; 2、智能推荐重点业务支撑,统一平台化支持算法工程师进行推荐/广告等算法效果迭代; 3、性能优化,持续提升数据预处理/训练/预估性能; 4、易用性优化,持续提升平台易用性,降低机器学习应用门槛; 5、具体承担数据流与特征平台、训练平台、资源调度、离线架构、在线架构等其中一项或多项工作。
1,负责电商数据仓库的ETL流程设计、开发与优化,尤其关注招商、营销活动(含大促)等核心业务场景的数据集成,确保数据的准确性、实时性和为业务决策和AI应用提供高质量数据基础。 2,主导电商领域的数据建模工作,构建满足用户画像、商品分析、营销效果评估等业务需求的多维数据模型,支持精细化运营、个性化推荐和智能决策。 3,与电商业务、招商、营销业务和数据科学等组紧密合作,深入理解业务痛点和增长目标,提供创新的数据解决方案,优化数据处理流程,提升数据赋能业务的能力。 4,参与大数据平台的优化和扩展,探索并应用AI技术(如机器学习、自然语言处理等)提升数据处理效率、数据质量和数据洞察能力,例如智能数据清洗、异常检测、特征工程自动化等。 5,编写高质量的代码和技术文档,确保代码的可维护性、可扩展性和可理解性,并积极参与技术分享和知识沉淀。 1,Responsible for the design, development, and optimization of ETL processes for the e-commerce data warehouse, with a focus on core business scenarios such as merchant acquisition, marketing campaigns (including major promotions), ensuring accurate, real-time, and efficient data transmission, and providing high-quality data foundation for business decisions and AI applications. 2,Lead data modeling efforts in the e-commerce domain, building multi-dimensional data models that meet the business needs of user profiling, product analysis, marketing performance evaluation, etc., supporting refined operations, personalized recommendations, and intelligent decision-making. 3,Collaborate closely with e-commerce business, merchant acquisition, marketing, and other teams to deeply understand business pain points and growth objectives, provide innovative data solutions, optimize data processing workflows, and enhance the ability of data to empower business. 4,Participate in the optimization and expansion of big data platforms, explore and apply AI technologies (such as machine learning, natural language processing, etc.) to improve data processing efficiency, data quality, and data insight capabilities, such as intelligent data cleaning, anomaly detection, and automated feature engineering. 5,Produce high-quality code and technical documentation to ensure code maintainability, scalability, and understandability, and actively participate in technical sharing and knowledge accumulation.
1. 构建基于机器学习或深度学习模型的在线识别系统,保证极高精准和召回的前提下,实时处置无效流量或风险物料; 2. 建设强大的离线挖掘平台,使用多种无监督、半监督手段帮助算法和运营同学探索新的异常pattern; 3. 研发风控产品平台,服务阿里妈妈和淘天集团更多相关的业务,不断提升迭代效率。每年为广告主挽回损失过百亿元,同时为平台拦截百亿以上的风险物料。
1. 构建基于机器学习或深度学习模型的在线识别系统,保证极高精准和召回的前提下,实时处置无效流量或风险物料。 2. 建设强大的离线挖掘平台,使用多种无监督、半监督手段帮助算法和运营同学探索新的异常pattern。 3. 研发风控产品平台,服务阿里妈妈和淘天集团更多相关的业务,不断提升迭代效率。每年为广告主挽回损失过百亿元,同时为平台拦截百亿以上的风险物料。
1、参与设计与研发快手服务亿级用户的端到端机器学习平台,构建高性能、分布式、可扩展的AI数据计算/存储引擎,通过数据驱动模型生产,支撑包括推荐、广告、搜索、大模型等核心AI算法业务的高效迭代; 2、打造业界领先的AI数据引擎,包括高性能实时/离线分布式计算系统、流批一体化的AI数据湖存储系统、SQL化DSL描述的下一代数据处理平台,为百万核规模、EB级数据的高效计算、存储、迭代提供易用可靠的基础设施; 3、与算法工程师、研究员团队紧密配合,深刻理解端到端的AI模型研发流程,探索业界前沿的Data4AI技术,负责模型研究中数据工程方案的架构设计、实现、持续迭代和稳定性维护。