百度高级大数据研发工程师(J80139)
社招全职1-5年MEG地点:北京状态:招聘
任职要求
-本科及以上学历,计算机、软件工程等相关专业 -1-5年大数据研发工作经验,有独立项目经验 -熟悉大数据项目开发流程,有Spark/Hadoop/flink/Clickhouse等大数据处理经…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责公司大数据项目的研发工作,包括数据预处理、数据清洗、数据分析和数据可视化等环节 -参与项目的需求分析和设计,并确保项目按照预期完成 -负责项目中关键模块的编写和调试,确保模块的稳定性和可靠性 -协助项目经理完成项目计划,并确保项目按时完成 -参与项目成果的验收和评估,并对项目成果提出改进建议 -协助团队完成其他与大数据项目研发相关的工作
包括英文材料
学历+
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
还有更多 •••
相关职位
社招
1. 参与围绕泛搜推领域数据的数据工程研发体系建设,通过数据+算法分析+工程化能力,高效赋能业务; 2. 通过抽象业务域,简历规范化的数据解决方案,通过构建实时、离线数仓为业务提供稳定、安全的数据源; 3. 参与湖仓一体的下一代大数据解决方案建设,提升效率,更好的支持业务; 4. 参与到实验效果的分析中,提供更科学的实验指导及实验分析。
更新于 2025-04-17杭州
社招3-5年技术类
1. 负责集团业务流量、客户等大数据数仓建设工作; 2. 对业务数据进行离线和实时计算,推动数仓体系建设,服务于公司业务,实现数据驱动业务增长; 3. 持续对大数据系统技术架构进行优化,提升系统的性能和用户体验。
更新于 2025-09-11北京
社招3年以上机器学习平台
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
北京|上海|深圳