基于语言表达的任意类别计数模型及其计数方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于语言表达的任意类别计数模型及其计数方法
申请号:CN202410948085
申请日期:2024-07-16
公开号:CN118965058A
公开日期:2024-11-15
类型:发明专利
摘要
本发明公开了一种基于语言表达的任意类别计数模型及其计数方法,计数模型包括指代表达理解模块和视觉计数回归模块,指代表达理解模块用来将输入的自然语言或文本描述进行特征标记嵌入、特征提取、特征融合等处理,预测出原始图像中的目标模板信息;视觉计数回归模块用来根据目标模板信息和原始图像进行特征提取和相似性学习,最终输出目标实例在原始图像场景中的预测数量。本发明通过指代表达理解模块来引导零样本计数,能够解析、理解人类自然语言并预测准确的目标模板,通过视觉计数回归模块对目标模板信息和原始图像进行特征提取和相似性学习,实现更一般化与智能化的计数功能,具有节省计算资源、快速识别位置、应用泛化性高的特点。
技术关键词
计数方法 语言编码器 模板特征 语义 交叉注意力机制 浅层特征提取 理解人类自然语言 视觉 图像编码 标记 文本 场景特征 代表 模块 多模态信息 分支 网络
系统为您推荐了相关专利信息
铁路 识别方法 分支 校正 影像
交通标志检测方法 图像 坐标 语义分割模型 交通信号灯信息
语音交互方法 语音生物特征 深度神经网络模型 迁移学习模型 带电作业环境
像素点 绝缘管 图像块 语义分割模型 坐标
孤立森林算法 监测系统 标记 随机森林 数据获取单元