
同花顺数据科学研究员
任职要求
1. 计算机、数学或相关专业硕士及以上学历,1年以上大模型数据工程经验; 2. 深入理解RLHF技术路径,具备多模态数据(文本-图像-代码)构建实战经验; 3. 熟练使用Hugging Face、Label Studio等工具,熟悉PyTorch、TensorFlow框架; 4. 掌握分布式数据处理技术(如Ray、Kubernetes),具备数据生成流水线优化经验; 5. 对逻辑推理、形式化验证有深入研究者优先。
工作职责
1. 构建多模态数据评估体系,量化数据对模型性能的影响,迭代优化数据生成策略; 2. 探索无监督/半监督数据生成技术,降低对人工标注的依赖,提升数据多样性。 3. 深度参与深度学习模型的研发流程,与算法工程师紧密协作,设计并实现符合业务需求的数据解决方案,为前沿模型研究提供高效的数据支持。 4. 持续优化平台数据的生产效率和易用性,降低算法使用门槛,探索业界前沿的多模态数据处理技术,将其转化为平台化功能,服务多场景业务需求。

1. 对临床医学疾病相关信息进行查找、整理、归纳,并对各类医疗数据解析及处理,对数据进行质量控制,搭建医疗相关大数据平台、专病数据库; 2. 熟悉医疗机构内HIS、EMR、LIS、PACS、CDR等主流系统厂商及其数据库业务,完成临床医学记录、影像等数据的数据理解、映射、分析、统计工作,能够熟练使用SQL、正则等数据库工具; 3. 对临床医学数据挖掘分析及应用; 4. 针对大数据、人工智能应用开发需求,提供数据标注、准备工作,并对应用开发结果提供专业评估,构建测试评价样本集; 5. 熟悉临床医学科研工作流程,与研究发起人、临床专家、统计专家、合作伙伴等一起,根据需求设计临床数据纳排方法、统计指标等; 6. 对医学相关内容进行整理,编撰医疗相关文本,完成医学产品内容的设计; 7. 参与产品研发等各部门合作,针对医学规则和逻辑进行整理,协助产品输出改进方向,提供产品改进决策方案;
探索并应用机器学习和深度学习技术于数字健康与推荐系统,负责特征分析、模型设计与优化、解释性模型构建等工作。 负责时间序列健康数据的技术研发,包括但不限于时序预测、表征学习、自监督学习、大模型应用等。 探索大语言模型与推荐/专家决策系统的融合,并推进产品在实际业务中的应用。

1. 对临床医学疾病相关信息进行查找、整理、归纳,并对各类医疗数据解析及处理,对数据进行质量控制,搭建医疗相关大数据平台、专病数据库; 2. 熟悉医疗机构内HIS、EMR、LIS、PACS、CDR等主流系统厂商及其数据库业务,完成临床医学记录、影像等数据的数据理解、映射、分析、统计工作,能够熟练使用SQL、正则等数据库工具; 3. 对临床医学数据挖掘分析及应用; 4. 针对大数据、人工智能应用开发需求,提供数据标注、准备工作,并对应用开发结果提供专业评估,构建测试评价样本集; 5. 熟悉临床医学科研工作流程,与研究发起人、临床专家、统计专家、合作伙伴等一起,根据需求设计临床数据纳排方法、统计指标等; 6. 对医学相关内容进行整理,编撰医疗相关文本,完成医学产品内容的设计; 7. 参与产品研发等各部门合作,针对医学规则和逻辑进行整理,协助产品输出改进方向,提供产品改进决策方案;
1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于AI的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。