摘要
本发明属于自然语言处理技术领域,本发明公开了一种基于人工智能的中文解析方法及系统,包括:首先获取待分词文本数据,将其输入预训练分词模型,获取每个字符位置的标签概率分布,包括词开始、词中间、词结束及单字词的概率值;然后基于标签概率分布采用多样性采样策略,通过获取非零概率标签并构建符合语法规则的路径,生成多个候选分词结果;最后通过自评估机制对候选结果进行评估,该机制结合内部一致性评分、词语共识度评分和概率合理性评分三个维度,选出最优分词结果并输出。通过保留分词的内在不确定性,避免模型收敛到单一标准,有效融合多种分词视角的优势,解决了传统分词系统在跨领域应用中表现受限的问题。