快手【留用实习】多模态大模型数据处理算法工程师
任职要求
1、硕士及以上学历,计算机、统计学、数学或相关专业,具备丰富的机器学习、大模型训练及数据处理项目经验,拥有扎实的数据分析与建模基础; 2、熟练使用 Python、SQL 等分析工具,掌握常用数据分析与可视化工具(如 Pandas、Tablea…
工作职责
1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。
1. 负责语音多模态大模型的研究与开发,包括Pretrain、SFT、RLHF等; 2. 负责语音处理算法的研究与开发,支撑大模型训练对数据的需求; 3. 负责大模型技术在快手业务中的落地,并探索新玩法或业务创新; 4. 负责跟踪国内外前沿技术的发展和实践,保持团队技术的敏锐性。
职责概述:参与自动驾驶与多模态大模型(VLM/LLM)相关的数据与模型研发工作,主要包括: 1、参与数据分布分析与场景聚类工作,通过向量化表示对大规模数据进行组织与分析,理解数据结构、长尾分布及典型场景特征; 2、基于向量检索与聚类结果,参与相似场景发现、数据筛选与问题挖掘,支持模型训练数据的构建与优化; 3、参与模型推理与数据处理相关工具开发,编写和维护 Python 代码,用于模型调用、数据处理、统计分析及结果可视化; 4、参与模型行为分析工作,包括 hidden states、attention、logits 等中间信息的对比与分析,协助理解模型表现与问题来源; 5、协助完成实验设计、结果分析及技术文档整理,支持模型效果评估与数据迭代。
1、探索大模型与推荐算法结合的下一代推荐系统技术,充分利用大模型的领域知识和学习范式为推荐系统注入新的能量,包括但不限于文本/ID生成式推荐、模型Scaling Law、用户超长序列端到端建模等; 2、探索视频、文本和语音等多模态信号的高效处理方式以及与推荐系统对齐的能力,让推荐系统看懂、听懂和理解世界; 3、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索; 4、紧跟行业及大模型技术发展,结合业界前沿技术和业务需求,打造大模型应用的最佳实践。
1、负责大模型在广告应用场景落地的相关工作;结合大模型的生成理解能力,将大模型prompts调优、RAG应用、大模型对齐微调、RLHF等技术在广告核心业务场景落地,提高广告模型的匹配效率,推动业务高速发展; 2、负责多模态技术在广告应用场景落地的相关工作;结合多模态表征学习、diffusion等生成式建模方法,提高广告模型的跨域理解能力; 3、跟踪AI行业及大模型技术发展,结合业界前沿技术和业务需求,不断推进广告算法设计升级; 4、了解业务,与公司各技术团队密切配合,能与产品、运营等角色高效沟通需求和目标,发挥自己的主观能动性,设计技术解决方案,培养自己的良好的业务sense和综合素质。