
平安科技大数据工程师(医疗健康)
社招全职2年以上计算机网络技术类地点:深圳状态:招聘
任职要求
1.学历要求: 计算机、数学、统计学、信息管理或相关专业本科及以上学历; 2.工作经验: 2年以上大数据分析或数据开发相关工作经验; 技术能力: 3.熟练掌握Hive、HDFS、MapReduce、Spark等大数据平台组件; 精通SQL,具备复杂SQL编写与优化能力; 4.熟悉MySQL、PG等关系型数据库的设计与使用,了解索引、事务、锁机制等; 5.熟悉Linux操作系统,掌握Shell/Python等至少一种脚本语言; 具备数据建模能力,了解星型…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.负责公司大数据平台的数据采集、清洗、存储、建模与价值挖掘工作; 2.使用Hive、Spark等大数据工具进行海量数据的处理与分析,构建稳定高效的数据处理流程; 3.设计并开发数据仓库模型,优化ETL流程,保障数据的准确性与及时性; 4.与业务部门协作,深入理解业务需求,提供数据支持与分析报告,辅助决策; 5.参与数据治理、元数据管理及数据质量监控体系建设; 6.有医疗行业背景者,参与医疗健康相关数据的分析建模,支持保司赋能、健康管理等应用场景。
包括英文材料
学历+
数据分析+
[英文] Data Analyst Roadmap
https://roadmap.sh/data-analyst
Step by step guide to becoming an Data Analyst in 2025
Hive+
[英文] Hive Tutorial
https://www.tutorialspoint.com/hive/index.htm
Hive is a data warehouse infrastructure tool to process structured data in Hadoop. It resides on top of Hadoop to summarize Big Data, and makes querying and analyzing easy.
https://www.youtube.com/watch?v=D4HqQ8-Ja9Y
HDFS+
https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.
https://www.ibm.com/cn-zh/think/topics/hdfs
Hadoop 分布式文件系统 (HDFS) 是一种管理大型数据集的文件系统,可在商用硬件上运行。
MapReduce+
https://www.youtube.com/watch?v=bcjSe0xCHbE
https://www.youtube.com/watch?v=cHGaQz0E7AU
In this video I explain the basics of Map Reduce model, an important concept for any software engineer to be aware of.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
SQL+
https://liaoxuefeng.com/books/sql/introduction/index.html
什么是SQL?简单地说,SQL就是访问和处理关系数据库的计算机标准语言。
https://sqlbolt.com/
Learn SQL with simple, interactive exercises.
https://www.youtube.com/watch?v=p3qvj9hO_Bo
In this video we will cover everything you need to know about SQL in only 60 minutes.
MySQL+
https://juejin.cn/post/7190306988939542585
这是一篇 MySQL 通关一篇过硬核经验学习路线,包括数据库相关知识,SQL语句的使用,数据库约束,设计等。
[英文] MySQL Tutorial
https://www.mysqltutorial.org/
your go-to resource for mastering MySQL in a fast, easy, and enjoyable way.
https://www.youtube.com/watch?v=5OdVJbNCSso
MySQL SQL tutorial for beginners
https://www.youtube.com/watch?v=7S_tz1z_5bA
This beginner-friendly course teaches you SQL from scratch.
还有更多 •••
相关职位
社招1年以上技术类-算法
团队介绍 蚂蚁集团CRO线全面风险管理部,致力于搭建适配整个集团各业务板块发展的敏捷、有效的全面风险管理体系。从集团层面提升并完善公司的风险治理体系框架,以科技驱动搭建集团智能化风险能力和内控管理能力,为公司管理团队提供全面风险视角下的决策支持,助力业务可持续健康发展。 1、深入理解业务及AI风险,设计研发智能化风险感知算法能力; 2、负责公司战略级业务蚂蚁医疗健康大模型的风险管理; 3、积极探索大模型等前沿技术在风险管理场景应用落地。
更新于 2025-06-19杭州
社招MEG
-主要负责健康医疗业务的策略研发工作,提升大语言模型的应用效果。 -积极探索多模态大模型等前沿技术领域并结合业务落地。 -预训练和微调大语言模型,基于医疗健康行业数据,训练更适合业务需求场景的大语言模型。 -建设医疗健康行业的大模型知识库,带领团队完成数据处理加工,知识体系化及数据飞轮基础设施建设。
更新于 2025-05-20北京
社招2年以上MEG
1. 负责多模态数据(如文本、图像、音频、视频等)的采集、预处理,及模型设计、开发与优化,构建适合医疗领域的多模态大模型。 2. 研究并实现跨模态信息融合的算法和技术,提升模型在健康内容/服务业务场景中的理解和生成能力。 3. 跟踪多模态深度学习的最新研究进展,探索和落地前沿技术(如预训练、自监督学习、小样本学习等)。 4. 与产品和工程团队紧密合作,推动多模态技术在搜索、推荐、广告等领域的全链路落地应用。 5. 分析和解决在多模态数据处理过程中遇到的技术难题,持续提升模型的智能化水平和商业价值。
更新于 2025-05-16北京