字节跳动端侧大模型算法研究员-移动OS-筋斗云人才计划
任职要求
1、计算机、人工智能、计算机视觉、数据科学相关专业博士优先; 2、扎实的机器学习、NLP/CV/序列建模等基础,具备多模态数据处理等研究背景; 3、熟悉Transformer、Diffusion、GAN、CNN/RNN等模型基础结构; 4、在NeurIPS/ICML/ICLR/ACL/EMNLP/CVPR/ICCV/ECCV等顶级会议上发表论文者优先; 5、优秀的代码能力、数据结构和基础算法功底,熟练C/C++或Python; 6、出色的问题分析和解决能力,有自主探索解决方案的能力。
工作职责
部门介绍:专注于探索AI和智能硬件的结合,为用户提供自然和便捷的交互体验,隶属于产品研发与工程架构部。作为AI技术应用场景探索的部门,也是字节在智能硬件领域提供综合解决方案的核心部门。我们期待心怀技术理想、挑战技术难题的“你”的加入,和顶尖团队一起参与技术攻坚,开启更多可能! 课题背景: 团队目前在探索大模型在端侧的能力并结合对用户的个性化数据的分析和建模,在保护用户隐私的情况下,提供更高性能、低延迟的更智能的用户使用体验。 随着移动设备的普及和计算能力的提升,端侧AI逐渐成为智能设备的核心驱动力。端侧设备要求不仅要具备高效的计算能力,还需要在保证推理质量的前提下,优化性能和资源使用。尤其是在复杂任务推理、图像生成、意图分类和个性化记忆建模方面,如何设计高效、灵活的系统和模型,已成为当前的研究重点。本课题聚焦于端侧设备上的智能任务推理与生成模型优化,涉及扩散模型(如Stable Diffusion)的精简与高效训练、复杂任务的多意图推理与编排,以及个性化记忆模型的构建与优化,推动端侧AI在各类应用场景中的广泛落地。 课题挑战: 1、多意图与任务处理: 1) 精准理解用户输入中的多意图,推导意图间关系,设计鲁棒的任务推理方法; 2)设计高效的任务编排系统,支持多任务并行执行,并能根据复杂场景需求动态调整任务执行顺序; 3)针对复杂任务链条,构建动态规划与优化机制,实现高效任务分配与执行,确保多场景切换时规划合理稳定。 2、个性化记忆建模与搜索: 1)应对行为数据稀疏性,基于长期行为设计有效特征提取与建模方法,构建个性化的记忆模型,提升用户交互的精准度与体验; 2)提升记忆模型鲁棒性和泛化能力,设计轻量化模型兼顾端侧与云端部署; 3)在端侧设备实现低延迟全局搜索,优化计算资源提升搜索效率。 3、扩散模型优化与部署: 1)如何在保持生成质量的前提下,精简Stable Diffusion等扩散模型以适应端侧设备; 2)设计轻量化的网络架构和高效的采样策略,提升模型的运行速度与效率; 3)针对不同应用场景优化模型生成能力,提升对复杂背景、动态内容的适应性。 4、 GUI自动化操作: 1)实现通用化GUI自动化操作,支持多种设备界面; 2)优化自动化操作的效率与准确性,减少用户干预需求。 通过整合这些方向,课题将实现端侧设备的智能任务推理和生成能力提升,推动智能助手、图像生成等应用场景的技术进步。
1.负责 Transformer 和 LLM 等算法技术在输入法业务上的落地工作(如拼音转文字、个性化输入、排序等); 2.端侧大模型设计、训练、优化和端侧推理加速; 3.基于LLM的词典、词组和句子库构建; 4.探索端侧模型和云端模型协同工作机制; 5.前沿技术方向的追踪。
我们是影像规划预研部,隶属于vivo影像大团队,主要负责vivo手机Camera模块中长期创新技术规划与预研。 我们以图像处理、计算机视觉、AI技术为依托,在拍照、视频、3D、XR等方向打造具有行业竞争力的影像技术和产品,为消费者提供极致的影像体验。 1. 负责AI眼镜中多模态大模型的算法预研,构建AI眼镜视频数据下的个人AI个人助理,实现长视频/多图下的端侧高效多模态问答交互,持续迭代优化核心算法模型及整体技术框架,支撑前沿技术产业落地; 2. 与产品团队紧密合作,将最新的多模态大模型技术融入公司产品和服务中,显著提升用户体验和满意度; 3. 不断优化现有算法,提高效果、性能和稳定性,确保技术在各种设备和平台上的高效运行,发布研究成果,积极参与行业会议,与学术界和工业界建立并维护良好的合作与交流关系。
1. 大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2. 多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3. 噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4. 探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。 【课题名称】 语音理解和生成大模型 【课题内容】 本课题拟围绕先进的语音理解与生成大模型,研发面向复杂场景的通用语音技术。项目将通过大规模语音数据预训练与强化学习方法,探索高鲁棒性、高自然度的语音理解与生成能力。