摘要
本发明涉及数据处理技术领域,尤其涉及一种基于大数据的审计数据分析方法及系统。方法包括:获取审计数据的各数值特征维度和各文本特征维度;确定各数值特征维度的信息量;确定各数值特征维度的重要程度;将各文本特征维度的数据种类数和审计数据的数量之比作为各文本特征维度的重要度;确定各条审计数据与其余审计数据之间的特征距离;将所述特征距离作为LOF算法中计算数据之间的距离,通过LOF算法得到每个数据点的局部离群因子,以便完成基于大数据的审计数据分析。本发明通过确定各数值特征维度的信息量和重要程度以及各文本特征维度的重要度,改进了特征距离的计算方式,使得LOF算法能更准确地区分正常数据与异常数据。