基于特征提取与伪标签对比聚类分析方法、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于特征提取与伪标签对比聚类分析方法、设备及介质
申请号:CN202411827683
申请日期:2024-12-12
公开号:CN119807779A
公开日期:2025-04-11
类型:发明专利
摘要
本发明公开了一种基于特征提取与伪标签对比聚类分析方法,其中方法包括:获取英文文本序列后根据BERT分词器和BERT嵌入模块,将文本序列转换为满足BERT编码器要求的输入句子字符嵌入E;将字符嵌入E输入到包含浅层字符表征融合机制的BERT编码器模块进行字符向量建模,获得初始隐含向量H;将字符嵌入E和初始隐含向量H输入到Electra以及BERT模块中进行局部语义抽取,对字符的局部语义向量建模,获得局部语义向量空间;将向量空间中的隐含向量引入到伪标签对比聚类分析中,使用伪标签先对整体模型进行评价打分,使用对比学习进行聚类。本发明在原本的意图识别任务中取得更好的效果。本发明可广泛应用于意图识别领域。
技术关键词
聚类分析方法 字符 注意力 意图类别 编码器模块 样本 语义向量空间 意图识别 文本 抽取关键词 矩阵 标签方法 序列 分类阈值 邻域 标签类别