摘要
本发明涉及一种基于Bert的学术论文标题分级装置和方法,分级装置包括数据读取模块、特征融合模块、分级预测模块、动态上下文扩展模块和结构化标题树构建模块;其中,特征融合模块提取布局特征并归一化,然后将其线性投影后,复制到对应的标题文本块经分词后所有token对应的嵌入位置;最后将复制后的布局特征向量与对应token的文本嵌入向量在特征维度上拼接,并将拼接后的高维特征降维融合,输出融合多模态信息的嵌入向量;分级预测模块内置应用YARN算法分阶段训练后的分级模型,分级模型采用分阶段训练策略,为针对不同的目标上下文长度范围设定不同的旋转位置编码的基频参数和缩放因子。本发明分类准确率高,分类速度快。