百度计算机视觉及多模态算法实习生(J94318)
实习兼职ACG地点:成都状态:招聘
任职要求
-本科及以上学历在校生,计算机相关专业,可尽快到岗,线下实习4个月及以上,每周至少出勤4天 -在多模态和计算机视觉某个领域有较深入的研究,包括但不限于:OpenCV、图像分类识别、图像分割、目标检测、OCR、多模态、无监督和自监督学…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-参与计算机视觉、文档处理分析相关技术研发,包括但不限于OCR文字识别、文档结构化、LLM训推等任务 -参与多模态大模型的算法方案调研、日常训练、微调与效果优化,确保模型训练的稳定性和效果 -支持大模型在各种实际业务中的落地,包括但不限于信息抽取、审查、图表解析等,确保其在真实场景中的有效应用 -参与大模型的日常评估和开发工作,推动其持续改进和性能提升,提高训练和推理效率 -与团队成员紧密合作,协同解决开发过程中遇到的问题和技术挑战
包括英文材料
学历+
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
OCR+
https://www.ibm.com/think/topics/optical-character-recognition
Optical character recognition (OCR) is a technology that uses automated data extraction to quickly convert images of text into a machine-readable format.
https://www.youtube.com/watch?v=or8AcS6y1xg
Optical character recognition (OCR) is sometimes referred to as text recognition.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
还有更多 •••
相关职位
实习ACG
-参与计算机视觉、文档处理分析相关技术研发,包括但不限于OCR文字识别、文档结构化、LLM训推等任务 -参与多模态大模型的算法方案调研、日常训练、微调与效果优化,确保模型训练的稳定性和效果 -支持大模型在各种实际业务中的落地,包括但不限于信息抽取、审查、图表解析等,确保其在真实场景中的有效应用 -参与大模型的日常评估和开发工作,推动其持续改进和性能提升,提高训练和推理效率 -与团队成员紧密合作,协同解决开发过程中遇到的问题和技术挑战
更新于 2025-06-06成都
实习D13918
1、跟进计算机视觉及多模态等前沿技术方向,能够实现前沿算法,保持算法在工业界和学术界的领先; 2、探索计算机视觉及多模态算法在内容理解和内容生成等领域的应用,参与和推动技术落地到快手各产品线,如搜索、推荐、电商、商业化等; 3、打造算法技术在工业界和学术界的影响力,参与相关专利、顶会论文的发表。
更新于 2025-07-16北京
实习算法
1. 负责工业视觉垂域下视觉大模型的模型研发工作,包括但不限于多模态或视觉预训练模型的下游任务微调、异常检测算法研究、目标检测/分割算法研究等; 2. 负责视觉语言大模型(vllm)在工业视觉领域应用的探索,包括但不限于大模型sft、强化学习微调算法研究等; 3. 跟进计算机视觉及多模态领域前沿工作,协助整理形成高质量论文。
北京