一种基于结合代表性和不确定性查询策略的SATD识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于结合代表性和不确定性查询策略的SATD识别方法
申请号:CN202510346378
申请日期:2025-03-24
公开号:CN120180257A
公开日期:2025-06-20
类型:发明专利
摘要
本发明适用于计算机技术领域,提供了一种基于结合代表性和不确定性查询策略的SATD识别方法,包括以下步骤:数据预处理与表示;构建初始训练集;基于查询策略的数据选择;停止训练;结果分析。本发明以BERT模型为基础训练出的SATD识别模型在F1分数指标上优于原有方法;采用结合代表性和不确定性的查询策略以及主动学习的方法,仅需部分信息量丰富的数据训练,就能获得性能优秀的模型,极大减少了人力标注成本;通过所有已标记的SATD注释数量与所有训练集中SATD数量的比值作为停止阈值,为不同应用场景提供灵活策略以获取不同的SATD识别模型。本发明能够在使用较少数据和标签成本下,精准高效识别代码注释中的SATD。
技术关键词
查询策略 识别方法 BERT模型 标记器 编码器 训练集数据 分词 关键词 令牌 标签 有效性 定义 密度 索引 文本 矩阵