一种面向建筑设计短文本的主题提取方法、系统、终端及存储介质
申请号:CN202511149705
申请日期:2025-08-18
公开号:CN120654705B
公开日期:2025-11-18
类型:发明专利
摘要
本发明涉及文本处理技术领域,公开了一种面向建筑设计短文本的主题提取方法、系统、终端及存储介质,所述方法包括:获取建筑设计短文本数据集,对所述建筑设计短文本数据集进行预处理,得到结构化文本集;根据所述结构化文本集进行句向量嵌入构建,得到句向量集合,对所述句向量集合进行降维处理,得到低维度句向量集合,并对所述低维度句向量集合进行聚类处理,得到初始主题聚类结果;对所述初始主题聚类结果进行优化处理,得到主题集合,并对所述主题集合进行结构化处理,得到目标主题集合。本发明通过对建筑设计短文本进行句子级语义嵌入与聚类优化处理,不仅增强了主题提取的适应性,还提高了主题提取的结构化和准确率。
技术关键词
主题提取方法
主题集合
聚类
分词
词语
关键词
文本处理技术
语义
词向量模型
数据
可读存储介质
处理器
频率
参数
标识
终端
程序
同义词