夸克智能信息-OCR多模态大模型算法专家-杭州
任职要求
1.计算机相关专业硕士及以上学历;具有扎实的逻辑分析能力,能够关注业务发展,具有良好的数据分析能力; 2. 熟练业界的主流多模态大模型算法,文档OCR相关的多模大模型方向优先,能够结合业务需求开发合适的算法结构; 3. 具有较好的算法…
工作职责
1. 负责面向文档场景的多模态大模型研发,包括多模态大模型算法的视觉预训练、SFT等 2. 负责夸克扫描王OCR多模态大模型算法能力建设,关注包括文档、自然场景的文字内容理解、属性分析、文字生成等能力开发 3. 负责跟踪和研究大模型前沿技术调研、落地、对业务进行优化
1、参与快手自研多模态大模型预训练算法工作,依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量预训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、参与生成理解统一的多模态大模型研发。
1、依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、协助研发理解与生成统一大模型的基础架构,涵盖多模态输入和输出在内的建模,实现模型在理解与生成任务上的协同优化效果。
1. 通过多模态算法进行用户的可信认知,支持十亿级支付宝用户,业务覆盖支付宝、蚂蚁国际、消金、财富、保险、生态等蚂蚁全域场景。 2. 方向一:多模态理解与推理方向,负责全面、高精、高效的多模态垂域模型研发,深耕视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题。 3. 方向二:负责声纹识别、声音防伪算法以及意图理解等算法,探索声纹表征、声纹防伪、ASR、语音合成等All-In-One模型方案,研发金融级识别和防伪算法,落地与实际支付场景; 4. 方向三:声学算法部分,负责波束成形、声源定位、阵列增强、音频编解码等软硬件一体语音信号处理算法原型开发、性能优化 5. 关注多模态以及语音大模型算法前沿技术和发展动态,持续探索新一代AI驱动的、高效的、有效的、业务及产品新范式,推动业务发展、引领行业变革;