生成纳米孔测序信号解码模型训练集的方法、装置及介质
申请号:CN202411540900
申请日期:2024-10-31
公开号:CN119446271B
公开日期:2025-08-12
类型:发明专利
摘要
本公开涉及生物学基因测序技术领域,包括生成纳米孔测序信号解码模型训练集的方法、装置及介质。通过预先训练得到的基础模型对测序到的电流信号进行碱基识别,得到电流信号对应的解码序列和解码路径;将解码序列与电流信号对应的参考序列进行比对;基于序列比对结果,确定解码序列中识别准确度满足第一预设条件的至少两个第一子序列;基于不同第一子序列对应在参考序列中的序列位置,在参考序列中提取不同序列位置之间的第二子序列;基于解码路径在电流信号中确定第二子序列对应的电流信号;基于不同的第二子序列和对应的电流信号,确定解码模型的训练集;可以将基础模型无法解码的信号进行标注并纳入训练集,从而训练出准确性更高的解码模型。
技术关键词
序列
解码模型
电流
信号
纳米孔
计算机程序指令
训练集
基因测序技术
覆盖率
动态规划算法
评分算法
处理器
异常数据
哈希表
速度
基础
存储器
介质