全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7% 全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7% 关键词: MME-VideoOCR,OCR,AI OCR,模型训练 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。 来自主题: AI技术研报 6555 点击 2025-05-30 17:30