logo of didi

滴滴安全产品技术部(2)算法实习生

实习兼职技术类地点:北京状态:招聘

任职要求


1、计算机、数学、自动化、电子工程等相关专业硕士研究生(能力优秀者专业不限) 。
2、熟练运用 Python 编程,熟悉常用深度学习框架(pytorchtensorflowkeras 等)以及深度学习基本算法(分类、检测、分割) 。
3、行事诚实稳健,具备良好沟通能力和文档编写能力 。
4、对 CV、声音算法有浓厚兴趣,能够及时关注 CV 前沿进展 。
5、有多模态大模型、声纹、OCR、人脸识别相关实际项目经验者优先 。
6、在行业认可的会议、期刊(CVPRICCVECCVICML 等)发表论文,或在计算机视觉大型赛事中获奖者优先 。

工作职责


1、开展语音、大模型、人脸识别等前沿算法方向研究,涵盖声纹识别、文本检测、文本识别、版面分析、Transformer、小样本迁移学习、人脸比对、人脸防攻击等方向。
2、进行上述方向前沿算法的追踪、复现及相关辅助工作 。
包括英文材料
Python+
深度学习+
PyTorch+
TensorFlow+
Keras+
算法+
大模型+
OCR+
CVPR+
ICCV+
ECCV+
ICML+
OpenCV+
相关职位

logo of didi
实习技术类

1、有视觉算法或多模态算法的技术积累和经验,能支持滴滴业务安全需求中的视觉算法相关的研究和开发,包括但不限于OCR、视觉/多模态大模型、通用结构化信息提取: 2、负责跟踪和探索视觉大模型、多模态大模型、通用结构化前沿问题,参与模型的设计、训练、调优及评测工作,并推进视觉大模型、多模态大模型等在业务场景的应用落地。

更新于 2025-08-20
logo of didi
实习技术类

1、数据处理与整理:协助团队进行大模型内容安全相关数据的收集、清洗、标注与整理工作,包括但不限于违规文本、图片、视频等多模态数据,确保数据的准确性、完整性和可用性,为模型训练与优化提供高质量数据支撑。​ 2、数据挖掘与分析:运用数据挖掘算法和数据分析工具,对海量内容安全数据进行探索性分析,挖掘违规内容的特征模式、分布规律及演变趋势,如违规话术变体、新型违规场景等,形成结构化的分析报告。​ 3、模型效果评估与优化辅助:参与机审模型的效果评估工作,协助计算准确率、召回率等关键指标,分析模型误判、漏判案例的原因;结合数据分析结果,提出模型优化建议,如特征工程改进、阈值调整等,助力提升机审模型的内容识别能力。​ 4、数据可视化与报告撰写:利用可视化工具(如 Tableau、Matplotlib 等)将分析结果转化为直观的图表,定期撰写数据分析报告,清晰呈现数据洞察、模型表现及优化进展,为团队决策提供数据依据。​ 5、跨团队协作与任务支持:配合算法工程师、安全运营等团队完成临时数据相关任务,协助推进内容安全防护体系的迭代升级,参与团队内部的技术分享与讨论。 6、参与大模型安全相关的合规工作。

更新于 2025-09-05
logo of bytedance
实习A57708A

团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:随着4K、HDR等技术成为主流标准,消费者对视频画质的要求日益提升。然而,视频在拍摄、传输和压缩过程中,画质往往受损,影响观看体验。多模态大模型的出现为视频分析、理解、画质评估、及画质增强提供了新的可能性,因此希望能够探索多模态大模型在多媒体场景的应用可行性,发掘基座大模型在大规模业务视频内容应用的潜力,建立业内领先的多媒体场景的多模态大模型解决方案。 画质分析以及人眼感知:利用多模态大模型,深入分析视频内容及画质退化问题,研究人眼对色彩、帧率、清晰度等画质维度的感知能力,从而使得画质评估更为准确,画质增强对退化的处理更为智能,增强的结果更符合人眼主观。生成式画质增强:利用生成式大模型的先验信息,大幅提升画质增强的效果天花板,并且解决生成伪像、生成保真度、生成稳定性等当前生成式算法存在的问题。视频时域任务:研究画质理解和增强在视频上的拓展,包括时域信息表征建模,时域退化理解,时域画质增强连续性,时域推理加速等。用户视角的验证:在大规模用户环境中,从用户的实际观看体验出发,验证画质增强算法的有效性和用户满意度。 1、支持研发基于大模型的多媒体算法,包括但是不限于视频理解,质量评价、视频处理和增强以及视频压缩; 2、支持多模态大模型相关算法的性能优化以及加速; 3、支持多模态大模型的算法在多媒体业务中落地,在图文、点播、直播等业务中发掘应用场景; 4、支持多模态大模型相关的前沿学术研究,在国际顶级会议与期刊中发表成果。

更新于 2025-03-06
logo of bytedance
实习A86112

团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:随着4K、HDR等技术成为主流标准,消费者对视频画质的要求日益提升。然而,视频在拍摄、传输和压缩过程中,画质往往受损,影响观看体验。多模态大模型的出现为视频分析、理解、画质评估、及画质增强提供了新的可能性,因此希望能够探索多模态大模型在多媒体场景的应用可行性,发掘基座大模型在大规模业务视频内容应用的潜力,建立业内领先的多媒体场景的多模态大模型解决方案。 画质分析以及人眼感知:利用多模态大模型,深入分析视频内容及画质退化问题,研究人眼对色彩、帧率、清晰度等画质维度的感知能力,从而使得画质评估更为准确,画质增强对退化的处理更为智能,增强的结果更符合人眼主观。生成式画质增强:利用生成式大模型的先验信息,大幅提升画质增强的效果天花板,并且解决生成伪像、生成保真度、生成稳定性等当前生成式算法存在的问题。视频时域任务:研究画质理解和增强在视频上的拓展,包括时域信息表征建模,时域退化理解,时域画质增强连续性,时域推理加速等。用户视角的验证:在大规模用户环境中,从用户的实际观看体验出发,验证画质增强算法的有效性和用户满意度。 1、支持研发基于大模型的多媒体算法,包括但是不限于视频理解,质量评价、视频处理和增强以及视频压缩; 2、支持多模态大模型相关算法的性能优化以及加速; 3、支持多模态大模型的算法在多媒体业务中落地,在图文、点播、直播等业务中发掘应用场景; 4、支持多模态大模型相关的前沿学术研究,在国际顶级会议与期刊中发表成果。

更新于 2025-03-06