基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法-复审决定


发明创造名称:基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
外观设计名称:
决定号:187457
决定日:2019-08-20
委内编号:1F274743
优先权日:
申请(专利)号:201610625894.2
申请日:2016-08-01
复审请求人:苏翀
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:杨洁
合议组组长:王阜东
参审员:陈学元
国际分类号:G06F19/00
外观设计分类号:
法律依据:专利法第25条第1款
决定要点
:如果一项权利要求请求保护的解决方案直接目的不是获得诊断结果或健康状况,而只是对从人体获取的信息进行处理,则该权利要求不属于疾病的诊断方法。
全文:
本复审请求涉及申请号为201610625894.2,名称为“基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法”的发明专利申请(下称本申请)。申请人为苏翀。本申请的申请日为2016年08月01日,公开日为2017年01月04日。
经实质审查,国家知识产权局原审查部门于2018年12月04日发出驳回决定,驳回了本申请,其理由是:权利要求1-8属于专利法第25条规定的不授予专利权的范围。驳回决定所依据的文本为:申请日2016年08月01日提交的权利要求第1-8项、说明书第1-101段、说明书附图图1-2、说明书摘要、摘要附图。驳回决定所针对的权利要求书如下:
“1. 一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述方法包括下述步骤:
(1)数据采集;
(2)数据预处理;
(3)建立基于随机森林算法的乙肝代偿期肝硬化筛查分类模型;
(4)测试并评价分类模型。
2. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(1)中,分别采集乙肝、乙肝代偿期肝硬化患者信息,其包括血清指标和B超的影像;对重复住院患者只取其第一次入院数据,并排除以下病例:重叠其他肝炎病毒感染、合并甲状腺疾病或自身免疫性疾病;
采集的血清指标包括:白蛋白、高密度脂蛋白、低密度脂蛋白、总胆红素、直接胆红素、谷丙转氨酶、谷草转氨酶、血清Ⅳ型胶原测定、血清Ⅲ型胶原测定、层黏蛋白、血清透明质酸酶测定、红细胞压积、红细胞计数、白细胞计数、血小板、血红蛋白、中性粒细胞绝对值、淋巴细胞绝对值、单核细胞绝对值、嗜酸性粒细胞绝对值、嗜碱性粒细胞绝对值、均红细胞体积、平均血红蛋白量、平均血红蛋白浓度、红细胞分布宽度、平均血小板体积、血小板分布宽度、凝血酶原时间、白球比、凝血酶原活动度、血小板比积;
B超的影像学特征,包括:肝静脉特征:1):正常、2):模糊、3):狭窄;肝实质回声特征:1):分布均匀、2):分布不均匀、3):斑状、网状、索状或结节状强回声光团;肝脏表面形态特征:1):正常、2):不规则、3):锯齿状、波状或结节状;肝脏边缘特征:1):正常、2):尖端变钝,但肝左叶形态正常、3):极度钝化,肝左叶失去正常形态;胆囊壁特征:1):正常、2):毛糙、3):增厚或双边征;脾脏面积特征:1):22cm以下、2):22cm—28cm、3):28cm 以上。
3. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(2)中,对所收集的病例样本数据进行过滤和清洗工作,对于缺失的连续型数据,则采用均值法补全;对于缺失的离散型数据则赋予同类样本中出现频率最高的离散值。
4. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(3)中,依据Hellinger距离计算,编制基于Hellinger距离的随机森林算法模型;运用5×2折交叉验证方法训练模型并验证之;在交叉验证过程中,每个数据集被分成数量相等的两个子集,两个实验分别在每个子集上运行,其中一个子集用于训练,另一个子集用于测试;整个过程迭代5次,最后取10个实验的平均结果作为最终结果;所述步骤(3)包括下述步骤:
①采用Bootstrap方法从原始数据集中有放回地抽取数量相同的样本作为副本集;
②在副本集上创建决策树;
③最终待测样本的分类结果通过集成每个子树的分类结果采用投票表决方式给出。
5. 如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤①中,所述Bootstrap方法指的是从原始数据集中有放回地抽取数量相同的样本作为副本集,也称为自助法。
6. 如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤②中,在创建决策树过程中,根据Hellinger距离从一个随机选择的特征子集中选择具有最大值的特征用于分裂;随机选择的特征子集所包含的特征数量作为随机森林的入口参数由用户提供;当使用Hellinger距离作为决策树算 法中分裂属性评价指标时,其计算如下所示:

其中,X表示对应属性;|X |和|X-|分别表示数据集中代偿期肝硬化患者和慢性乙肝患者的例数;|X j|和|X-j|表示属性X的值为j且分别属于代偿期肝硬化患者和慢性乙肝患者的病例数;p表示属性X具有不同值的个数;所得之值表示属性X对代偿期肝硬化患者和慢性乙肝患者的区分能力,该值越大表明区分能力越强。
7. 如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤③中,增加随机森林算法的输出方式,即在原有通过投票表决法来决定输出值的基础上增加概率连续值的输出方式,以评估乙肝患者的病情进展和预后情况;
设建立的模型中包含N棵子树,其中预测值为是,即预测为代偿期肝硬化的子树有K棵,K≤N,则概率P=K/N;当P值大于0.5时,说明患者患肝硬化的几率较大,考虑行肝脏组织活检病理学检查;另一方面,通过P值来评估乙肝患者的病情进展和预后情况。
8. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(4)中,分别应用受试者工作特征曲线和精度召回率曲线下面积AUroc和AUprc作为所建立模型的评价指标;
受试者工作特征曲线即ROC曲线是以真正率即灵敏度TPrate为纵坐标,假正率即特异度FPrate为横坐标绘制的曲线;ROC曲线以可视化的方式反映出收 益和代价,即真正率和假正率之间的平衡关系;在ROC曲线空间,对角线代表一个随机分类器,点(0,1)表示一个理想的最佳分类器;
精度召回率曲线即PR曲线以精度Precision为纵坐标,召回率Recall为横坐标绘制的曲线;在PR空间,精度=0.5的直线代表一个随机分类器,点(1,1)表示一个理想的最佳分类器。”
申请人(下称复审请求人)对上述驳回决定不服,于2019年02月22日向国家知识产权局提出了复审请求,同时修改了权利要求书。复审请求人认为:本申请修改后的权利要求1采集预先存储的乙肝、乙肝代偿期肝硬化患者的病例样本数据,所述病例样本数据是预先存储的电子病历样本数据,并非以有生命的人体或者动物体为直接实施对象;本申请修改后的权利要求1在采集数据后,执行的是与数据处理、模型训练和评估相关的操作,可见在采集数据之后的操作也均不是以有生命的人体或者动物体为直接实施对象。本申请修改后的权利要求1采集电子病历数据的直接目的是用来经预处理后,训练预先建立的数据模型,并测试和评价训练后得到的模型,而不是用以获得疾病诊断结果或健康状况。虽然应用本申请修改后的权利要求1建立的乙肝代偿期肝硬化筛查模型能够初步预测出乙肝患者(待测样本)是否处于代偿期肝硬化,但该预测过程是使用或应用本申请修改后的权利要求1所得到的成果,直接目的是初步预测乙肝患者(待测样本)是否处于代偿期肝硬化,即疾病初步辅助诊断。另外,经检索,授权公告号为CN105044343 B、发明名称为“一种食管鳞状细胞癌诊断模型的构建方法、所得诊断模型及模型的使用方法”已授予专利权,授予范围为权利要求1-9“食管鳞状细胞癌诊断模型的构建方法”;授权公告号为CN 106204532 B、发明名称为“基于特征数据挖掘及神经网络的肿瘤的分类方法”已授予专利权,授予范围为权利要求1-3,主要方案为利用神经网络模式进行训练,得到肿瘤多类别分类器;授权公告号为CN 106651875 B、发明名称为“基于多模态MR工纵向数据的脑瘤时空协同分割方法”已授予专利权,授予范围为权利要求1-2,主要方案为分别对脑瘤手术前后的脑瘤MRI(磁共振成像)数据进行分割处理,建立四维图模型。复审请求时修改的权利要求书如下:
“1. 一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述方法包括下述步骤:
(1)采集预先存储的乙肝、乙肝代偿期肝硬化患者的病例样本数据,所述病例样本数据包括血清指标和B超的影像学特征;
(2)预处理所述病例样本数据;
(3)以所述预处理后的病例样本数据作为训练样本,训练预先建立的基于Hellinger距离的随机森林算法模型,得到乙肝代偿期肝硬化筛查模型;
(4)测试并评价所述乙肝代偿期肝硬化筛查模型。
2. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(1)中,对重复住院患者只取其第一次入院的病例样本数据,并排除以下病例:重叠其他肝炎病毒感染、合并甲状腺疾病或自身免疫性疾病;
采集的血清指标包括:白蛋白、高密度脂蛋白、低密度脂蛋白、总胆红素、直接胆红素、谷丙转氨酶、谷草转氨酶、血清IV型胶原测定、血清Ⅲ型胶原测定、层黏蛋白、血清透明质酸酶测定、红细胞压积、红细胞计数、白细胞计数、血小板、血红蛋白、中性粒细胞绝对值、淋巴细胞绝对值、单核细胞绝对值、嗜酸性粒细胞绝对值、嗜碱性粒细胞绝对值、均红细胞体积、平均血红蛋白量、平均血红蛋白浓度、红细胞分布宽度、平均血小板体积、血小板分布宽度、凝血酶原时间、白球比、凝血酶原活动度、血小板比积;
B超的影像学特征,包括:肝静脉特征:1):正常、2):模糊、3):狭窄;肝实质回声特征:1):分布均匀、2):分布不均匀、3):斑状、网状、索状或结节状强回声光团;肝脏表面形态特征:1):正常、2):不规则、3):锯齿状、波状或结节状;肝脏边缘特征:1):正常、2):尖端变钝,但肝左叶形态正常、3):极度钝化,肝左叶失去正常形态;胆囊壁特征:1):正常、2):毛糙、3): 增厚或双边征;脾脏面积特征:1):22cm以下、2):22cm—28cm、3):28cm以上。
3. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(2)中,对所收集的病例样本数据进行过滤和清洗工作,对于缺失的连续型数据,则采用均值法补全;对于缺失的离散型数据则赋予同类样本中出现频率最高的离散值。
4. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(3)中,所述基于Hellinger距离的随机森林算法模型为依据Hellinger距离计算公式编制的基于Hellinger距离的随机森林算法模型;运用5×2折交叉验证方法训练模型并验证之;在交叉验证过程中,每个数据集被分成数量相等的两个子集,两个实验分别在每个子集上运行,其中一个子集用于训练,另一个子集用于测试;整个过程迭代5次,最后取10个实验的平均结果作为最终结果;所述步骤(3)包括下述步骤:
①采用Bootstrap方法从原始数据集中有放回地抽取数量相同的样本作为副本集;
②在副本集上创建决策树;
③最终待测样本的分类结果通过集成每个子树的分类结果采用投票表决方式给出。
5. 如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤①中,所述Bootstrap方法指的是从原始数据集中有放回地抽取数量相同的样本作为副本集,也称为自助法。
6. 如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤②中,在创建决策树过程中,根据Hellinger距离从一个随机选择的特征子集中选择具有最大值的特征用于分裂;随机选择的特征子集所包含的特征数量作为随机森林的入口参数由用户提供;当使用Hellinger距离作为决策树算法中分裂属性评价指标时,其计算如下所示:

其中,X表示对应属性;|X |和|X-|分别表示数据集中代偿期肝硬化患者和慢性乙肝患者的例数;|X j|和|X-j|表示属性X的值为j且分别属于代偿期肝硬化患者和慢性乙肝患者的病例数;p表示属性X具有不同值的个数;所得之值表示属性X对代偿期肝硬化患者和慢性乙肝患者的区分能力,该值越大表明区分能力越强。
7. 如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤③中,增加随机森林算法的输出方式,即在原有通过投票表决法来决定输出值的基础上增加概率连续值的输出方式,以评估乙肝患者的病情进展和预后情况;
设建立的模型中包含N棵子树,其中预测值为是,即预测为代偿期肝硬化的子树有K棵,K≤N,则概率P=K/N;当P值大于0.5时,说明患者患肝硬化的几率较大,考虑行肝脏组织活检病理学检查;另一方面,通过P值来评估乙肝患者的病情进展和预后情况。
8. 如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(4)中,分别应用受试者工作特征曲线和精度召回率曲线下面积AUroc和AUprc作为所建立模型的评价指标;
受试者工作特征曲线即ROC曲线是以真正率即灵敏度TPrate为纵坐标,假正率即特异度FPrate为横坐标绘制的曲线;ROC曲线以可视化的方式反映出收益和代价,即真正率和假正率之间的平衡关系;在ROC曲线空间,对角线代表一个随机分类器,点(0,1)表示一个理想的最佳分类器;
精度召回率曲线即PR曲线以精度Precision为纵坐标,召回率Recall为横坐标绘制的曲线;在PR空间,精度=0.5的直线代表一个随机分类器,点(1,1)表示一个理想的最佳分类器。”
经形式审查合格,国家知识产权局于2019年03月06日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:本申请请求保护一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法,利用乙肝患者和代偿期肝硬化患者的血清指标B超的影像学特征等数据建立样本数据库,借助基于Hellinger距离的随机森林算法建立无创性乙肝代偿期肝硬化的预警模型,来评估乙肝患者的病情进展和预后情况。本申请说明书第[0048]-[0061]段记载:“模型能够有效地预测出乙肝患者(待测样本)是否处于代偿期肝硬化”,“通过该模型的评估,可以减少不必要的肝脏组织活检病理学检查”;“利用模型的辅助功能,使得医生可以完成初步诊断”,该方法实质上是利用筛查模型,通过导入患者的生理数据,得到输入结果,使得医生完成对患者病情的初步诊断。本申请说明书第[0070]-[0071]段记载了:“通过该模型,不但能够有效地预测乙肝患者(待测样本)是否处于代偿期肝硬化,而且还能够评估乙肝患者的病情进展和预后情况”;本申请权利要求以患者的血清指标和B超的影像反映的肝脏等生理数据为基础来建立筛查模型,建立该筛查模型的直接目的是获得乙肝患者的病情进展和预后情况,因此该发明是疾病的诊断方法,属于专利法第25条规定的不授予专利权的范围。因此,坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人提出复审请求时提交了修改的权利要求书。经审查,复审请求人对权利要求书的修改符合专利法实施细则第61条第1款和专利法第33条的规定。因此,本复审决定依据的文本为:复审请求人于2019年02月22日提交的权利要求第1-8项,申请日2016年08月01日提交的说明书第1-101段、说明书附图图1-2、说明书摘要、摘要附图。
具体理由的阐述
专利法第25条第1款:对下列各项,不授予专利权:(一)科学发现;(二)智力活动的规则和方法;(三)疾病的诊断和治疗方法;(四)动物和植物品种;(五)用原子核变换方法获得的物质;(六)对平面印刷品的图案、色彩或者二者的结合作出的主要其标识作用的设计。
如果一项权利要求请求保护的解决方案直接目的不是获得诊断结果或健康状况,而只是对从人体获取的信息进行处理,则该权利要求不属于疾病的诊断方法。
权利要求1-8请求保护一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法。所述权利要求采集包括血清指标和B超的影像学特征的病例样本数据,在采集数据后,执行的是与数据处理、模型训练和评估相关的操作。所述权利要求请求保护的解决方案的直接目的不是获得诊断结果或健康状况,而只是建立对病例样本数据进行处理的模型。因此,权利要求1-8不属于疾病的诊断方法,不属于专利法第25条规定的不授予专利权的范围。
对驳回理由和前置审查意见的评述
关于驳回理由和前置审查意见(参见案由部分),合议组认为:复审请求人提出复审请求时对独立权利要求进行了实质性修改,修改后的独立权利要求执行数据采集、数据预处理、训练模型、测试并评价模型的操作,其仅是对获取的病例样本数据进行处理,直接目的是建立模型,不是直接获得疾病的诊断结果。
综上所述,合议组认为复审请求人于2019年02月22日提交的权利要求第1-8项并不存在驳回决定以及前置审查意见中所指出的不属于专利保护范围的缺陷。至于本申请的说明书和权利要求书是否还存在其它缺陷,留待后续程序继续审查。
三、决定
撤销国家知识产权局于2018年12月04日对本申请作出的驳回决定。由国家知识产权局原审查部门以下述文本为基础继续进行审批程序:
复审请求人于2019年02月22日提交的权利要求第1-8项,申请日2016年08月01日提交的说明书第1-101段、说明书附图图1-2、说明书摘要、摘要附图。
如对本复审决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本复审决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: