logo of quark

夸克智能信息-OCR多模态大模型算法专家-杭州

社招全职3年以上技术类-算法地点:杭州状态:招聘

任职要求


1.计算机相关专业硕士及以上学历;具有扎实的逻辑分析能力,能够关注业务发展,具有良好的数据分析能力;
2. 熟练业界的主流多模态大模型算法,文档OCR相关的多模大模型方向优先,能够结合业务需求开发合适的算法结构;
3. 具有较好的算法
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责面向文档场景的多模态大模型研发,包括多模态大模型算法的视觉预训练、SFT等
2. 负责夸克扫描王OCR多模态大模型算法能力建设,关注包括文档、自然场景的文字内容理解、属性分析、文字生成等能力开发
3. 负责跟踪和研究大模型前沿技术调研、落地、对业务进行优化
包括英文材料
学历+
数据分析+
大模型+
算法+
OCR+
还有更多 •••
相关职位

logo of liauto
社招智能与信息技术

1. 负责音频、语音等算法的处理和实现; 2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地; 3. 负责多模态融合算法、多模态大语言模型的研发与落地。

北京
logo of kuaishou
社招D13360

1、参与快手自研多模态大模型预训练算法工作,依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量预训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、参与生成理解统一的多模态大模型研发。

更新于 2025-12-02北京
logo of kuaishou
实习D13918

1、依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、协助研发理解与生成统一大模型的基础架构,涵盖多模态输入和输出在内的建模,实现模型在理解与生成任务上的协同优化效果。

更新于 2025-09-23北京
logo of antgroup
社招技术类-算法

1. 通过多模态算法进行用户的可信认知,支持十亿级支付宝用户,业务覆盖支付宝、蚂蚁国际、消金、财富、保险、生态等蚂蚁全域场景。 2. 方向一:多模态理解与推理方向,负责全面、高精、高效的多模态垂域模型研发,深耕视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题。 3. 方向二:负责声纹识别、声音防伪算法以及意图理解等算法,探索声纹表征、声纹防伪、ASR、语音合成等All-In-One模型方案,研发金融级识别和防伪算法,落地与实际支付场景; 4. 方向三:声学算法部分,负责波束成形、声源定位、阵列增强、音频编解码等软硬件一体语音信号处理算法原型开发、性能优化 5. 关注多模态以及语音大模型算法前沿技术和发展动态,持续探索新一代AI驱动的、高效的、有效的、业务及产品新范式,推动业务发展、引领行业变革;

更新于 2025-05-13北京|上海|杭州