阿里云研究型实习生 - 数据库智能运维体系研究
在阿里云大数据智能运维场景中,存在大量时间序列异常检测的需求,涉及成本指标、集群、数据库实例、计算作业等诸多监控场景。 阿里云大数据技术与工程团队在时间序列异常检测方向深耕多年,特别是单指标的异常检测方面,支撑了集团内和公有云多个重要的场景。包括(1)Dataworks提供数据质量监控(DQC)动态阈值能力,自动监控集团内部和公有云Dataworks用户的数据表质量;(2)为Flink提供作业延迟的自动监控,实现海量作业异常的自动捕捉,帮助SRE及时发现大规模用户问题并确定影响面等。 但我们发现在只能运维复杂场景下精准的时序异常检测依然存在诸多技术挑战。例如(1)Hologres的实例异常发现,常常需要联合多个数据库性能相关指标综合判断,单指标的异常检测无法做出准确决策。(2)在包含主指标与子指标的下钻场景中,如大数据平台整体资源使用率和各产品资源使用率。在主指标出现异常时,还期望能够准确定位到对异常贡献度最大的子指标。 因此,团队计划在自研算法同时,通过RI项目引入高校优秀学生资源提高团队竞争力,同时也为未来招聘提供优秀候选人。
我们正在寻找对人工智能、多模态数据处理、系统性能优化感兴趣的实习生,参与一个面向多模态数据获取、解析、压缩与高效传输的研究课题。该课题聚焦于提升多模态系统在复杂环境下的实时性表现与资源利用率,具有广泛的应用前景(如智能运维、RAG检索增强生成、边缘计算等)。你将参与的工作包括但不限于: 1. 多模态数据采集与预处理:从网页、API、数据库、摄像头、麦克风等来源获取文本、图像、音频和视频数据; 2. 多模态数据解析与特征提取:使用OCR、ASR、NLP、CV等技术解析不同模态内容; 3. 模型轻量化与加速:探索基于Transformer、CNN、LSTM等模型的压缩、蒸馏、量化方法; 4. 系统级优化与部署:设计低延迟、低资源占用的数据处理流程,支持在边缘设备上运行; 5. 性能评估与实验分析:构建测试集,评估系统的吞吐量、响应时间、准确率等关键指标; 6. 撰写技术文档与研究报告:整理实验过程、结果与改进建议。 技术要求(优先但不强制): 1. 熟悉Python编程语言,有良好的代码规范; 2. 了解基本的NLP、CV或语音识别技术; 3. 掌握至少一种深度学习框架(PyTorch/TensorFlow); 4. 熟悉Linux系统及常用命令行工具。 有以下经验者优先考虑: 1. 多模态任务处理经验(如CLIP、Flamingo等); 2. 模型压缩与部署经验(如TensorRT、ONNX、OpenVINO、TVM等); 3. 使用过音视频处理工具(如FFmpeg、OpenCV、Whisper、YOLO等); 4. 有一定系统编程能力(C/C++、CUDA、FPGA基础)。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动基础架构数据库团队,致力于构建认知型数据基础设施,持续定义数据技术的未来边界。团队基于全栈自研技术,打造了涵盖关系型数据库、NoSQL 数据库、大规模图平台、多模态搜索、云原生中间件等十余项产品的数据库矩阵,用独创的技术架构实现事务处理、混合查询、智能检索等全场景覆盖。我们不仅支撑集团核心业务,更通过火山引擎为客户提供具备企业级稳定性的数据库产品,助力客户以数据驱动实现业务增长。团队在大规模分布式架构、极致性能计算/存储引擎、软硬协同优化等领域具备顶尖技术积淀。面向 AI 时代,我们正在突破传统架构边界:一方面深化 AI 原生驱动内核、AI 算子优化等创新方向,推动数据库向智能 Copilot 演进;另一方面聚焦超大规模图计算、分布式跨模态数据联邦查询等前沿领域,构建支持跨模态数据管理的下一代设施。我们践行“务实浪漫”的极客文化,既在 VLDB 、SIGMOD 等顶级会议持续输出突破性成果,又以商业落地为导向打造全场景的产品矩阵。团队汇聚众多顶尖数据库专家和卓越工程师,分布在国内/海外多地。现诚邀具备数据库内核研发经验、分布式系统架构能力及 AI 创新视野的优秀人才,共同探索技术无人区,定义 AI 时代的数据基座,赋能全球企业实现 AI 驱动的业务变革。 1、参与字节跳动内部自研云原生数据库产品的设计和开发,打造业界领先的分布式OLTP/HTAP数据库产品; 2、参与字节跳动VeDB Family旗下数据库产品架构、功能迭代和服务化,研究云原生在数据库的应用技术并落地实现; 3、深入理解业务场景需求,针对性的为不同业务场景提供最合适的辅助工具,提高数据库产品的易用性、稳定性和运维能力。