
阅文集团实习生-大数据开发工程师
实习兼职技术地点:深圳状态:招聘
任职要求
1)27届及以后毕业的本科及以上学历学生,大数据,统计学,数据科学、软件工程等相关专业。 2)熟练运用 SQL,能编写复杂关联查询语句,以及python中的数据挖掘库 3)了解 Hadoop 生态,掌握 Hive、Spark、Flink 等至少两种…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1)协助搭建支撑阅文集团相关用户行为分析的数据仓库,参与维度表、事实表的设计,适配千万级用户的海量数据存储需求。 2)参与 ETL 全流程开发,运用 Flink、Spark 等工具完成实时 / 离线数据的采集、清洗与转换,保障用户画像、播放,阅读等核心指标的准确性。 3)协助优化数据仓库模型与数据处理任务,解决 Hive SQL 执行效率低、数据延迟等问题,提升数据产出速度。 4)配合业务团队,开发适配运营场景的数据报表,支撑内容推荐、用户留存分析,数据指标归因等业务决策。 5)参与数据质量监控体系搭建,协助编写数据校验脚本,排查数据缺失、异常等问题,输出问题处理报告。
包括英文材料
学历+
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
数据科学+
https://roadmap.sh/ai-data-scientist
Step by step roadmap guide to becoming an AI and Data Scientist
SQL+
https://liaoxuefeng.com/books/sql/introduction/index.html
什么是SQL?简单地说,SQL就是访问和处理关系数据库的计算机标准语言。
https://sqlbolt.com/
Learn SQL with simple, interactive exercises.
https://www.youtube.com/watch?v=p3qvj9hO_Bo
In this video we will cover everything you need to know about SQL in only 60 minutes.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
数据挖掘+
https://www.youtube.com/watch?v=-bSkREem8dM
Database vs Data Warehouse vs Data Lake
https://www.youtube.com/watch?v=7rs0i-9nOjo
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
还有更多 •••