logo of 10jqka

同花顺视觉理解大模型算法工程师

校招全职AI 算法类地点:杭州状态:招聘

任职要求


1、博士学位计算机视觉机器学习深度学习、人工智能或相关领域。
2、具有扎实的数学基础和算法设计能力,熟练掌握PythonC++等编程语言。
3、熟悉主流的深度学习框架,如TensorFlowPyTorch等。
4、具有丰富的视觉理解项目经验,特别是在视频理解等方面。
5、具有良好的数据分析能力,能够通过数据驱动算法优化。
6、良好的团队合作精神和沟通能力,能够在跨学科团队中有效合作。
7、具有发表顶级会议或期刊论文的经验者优先。
8、具有金融行业背景或TradingView等金融分析平台深入了解者优先。

工作职责


1、负责视觉理解大模型的研发,包括但不限于图像/视频的理解、问答、识别等。
2、针对特定垂类场景(如Figma设计文档、TradingView等场景)的需求,开发和优化视觉算法,提升用户体验。
3、跟踪最新的多模态大模型和视觉理解领域的研究进展,将前沿技术应用于实际项目。
4、负责算法的性能评估和优化,确保算法的准确性和效率。
5、与产品团队紧密合作,将算法模型集成到产品中,并提供技术支持。
6、发表学术论文,参与国内外学术会议,提升公司在视觉理解领域的知名度。
包括英文材料
学历+
OpenCV+
机器学习+
深度学习+
算法+
Python+
C+++
TensorFlow+
PyTorch+
数据分析+
相关职位

logo of baidu
社招ACG

-建设在重点应用场景效果领先的VL视觉理解大模型 -研究持续预训练(CPT)及退火训练技术,通过高质量领域数据增强垂直领域基座模型 -研究垂直领域的奖励规则和奖励模型,通过强化学习后训练,提升基座模型的领域知识推理能力 -研究前沿的文本/多模态模型架构与高效的训练推理技术,在先进模型结构、对齐训练算法、强化学习、推理时scaling、高效奖励模型设计、视觉推理、机制解释等方向深入研究并产出有影响力的结果

更新于 2025-07-25
logo of baidu
校招AIDU项目

-建设在重点应用场景效果领先的VL视觉理解大模型-研究持续预训练(CPT)及退火训练技术,垂直领域基座模型; -研究垂直领域的奖励规则和奖励模型,通过强化学习后训练,提升基座模型的领域知识推理能力; -研究前沿的文本/多模态模型架构与高效的训练推理技术,在先进模型结构、对齐训练算法、强化学习、推理时scaling、高效奖励模型设计、视觉推理、机制解释等方向深入研究并产出有影响力的结果。

更新于 2025-05-19
logo of mi
校招

1. 研发端到端全模态理解和推理大模型核心技术,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 研发视觉理解和推理大模型核心技术,在图像理解,视频理解,视觉推理能力增强(关系推理、因果推理、常识推理),GUI屏幕感知和推理、端到端图像翻译等方向创新突破,达到业内一流; 3. 优化语音识别大模型的上下文感知能力,通过送入交互历史信息提升语音识别准确率;优化语音识别大模型的热词感知能力,通过送入相关热词提升语音识别准确率;优化语音多模态理解大模型的SpeechEncoder,提升语音理解大模型的语音理解能力和声音理解能力,包括语音内容、情感、性别、声音事件、音乐风格等;在用户跟智能体对话的过程中,检测用户的表达完整性,从而加快系统响应速度且不带来更多的误截断;在语音对话模型中,检测用户交互的对象,从而提升打断的有效性和系统交互的响应速度; 4. 端到端全模态理解和推理、视觉理解、语音理解等,建立比较广泛的业界影响力,论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等; 5. 端到端全模态理解和推理、视觉理解、语音理解等,落地在小米核心业务场景,提升核心产品竞争力和用户智能体验,包括手机(OS/小爱)、汽车、生态链等。 【课题名称】 端到端全模态理解和推理大模型研究与应用 【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术,产出突破性成果,在小米核心业务场景落地;输入文本、图像、视频、语音等模态,输出文本、语音等模态;探索全模态信息感知能力;探索全模态混合推理思维链;探索全模态思维强化; 2. 研究视觉理解和推理的核心技术和应用,包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等; 3. 研究语音理解大模型的感知关键技术,包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取,用户表述完整性检测等,提升流式交互系统的响应速度和理解准确性等。

更新于 2025-06-25
logo of meituan
社招1年以上核心本地商业-基

1.基于多模态大模型技术,提升富文本图像、视频内容的端到端解析理解能力,如行业文档图像、电商场景图像、屏幕录制图像视频等。 2.推进建设大模型产品解决方案,推动相关算法在业务场景中落地,赋能商家入驻、企业办公、风控合规、自动化测试等业务的智能化升级。 3.负责包含但不限于优化多模态大模型的图文理解能力、协同大模型相关产品建设、服务部署落地全流程、构建流程自动化系统等。

更新于 2025-03-13