
发明创造名称:进行语句识别的方法及装置
外观设计名称:
决定号:196194
决定日:2019-11-26
委内编号:1F250059
优先权日:
申请(专利)号:201510288088.6
申请日:2015-05-29
复审请求人:北京京东尚科信息技术有限公司 北京京东世纪贸易有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:邢鹏
合议组组长:孙治国
参审员:牛晓丽
国际分类号:G06F17/27,G06F17/30,G06K9/66
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求与作为最接近现有技术的对比文件存在区别特征,但区别特征或者被其他对比文件公开,或者属于本领域公知常识,在对比文件的基础上结合公知常识得到该权利要求的技术方案是显而易见的,则该权利要求不具备创造性。
全文:
本复审请求涉及申请号为201510288088.6,名称为“进行语句识别的方法及装置”的发明专利申请(下称本申请)。申请人为北京京东尚科信息技术有限公司。本申请的申请日为2015年05月29日,公开日为2015年08月19日。
经实质审查,国家知识产权局原审查部门于2018年01月05日发出驳回决定,驳回了本申请,其理由是:权利要求1相对于对比文件1(CN102789498 A,公开日为2012年11月21日)、对比文件2(“本地搜索中查询词分类器的设计与实现”,刘新春,万方数据企业知识服务平台,摘要第2-4段,公开日为2009年12月31日)和本领域公知常识的结合不具备专利法第22条第3款规定的创造性;权利要求2-5的附加技术特征对于本领域技术人员是容易想到的,不具备专利法第22条第3款规定的创造性;权利要求6-10与权利要求1-5对应,基于对权利要求1-5的评述,权利要求6-10不具备专利法第22条第3款规定的创造性。驳回决定所依据的文本为申请人于申请日2015年05月29日提交的权利要求第1-10项、说明书第0001-0084段、说明书附图1-4、说明书摘要以及摘要附图。驳回决定所针对的权利要求书如下:
“1. 一种进行语句识别的方法,其特征在于,
对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;
定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;
将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;
将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;
该方法还包括:
将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;
对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;
将几率值最大的分类结果作为待分类语句的最终识别结果。
2. 如权利要求1所述的方法,其特征在于,该方法还包括对样本权重进行调整,具体地:
将语料样本输入弱分类器进行分类识别后,若弱分类器识别出的分类结果与标准分类结果不一致,则增加相应语料样本的权重,若分类结果与标准分类结果一致,则降低相应语料样本的权重。
3. 如权利要求2所述的方法,其特征在于,所述根据错误率设置相应弱分类器的权重包括:
对样本权重进行调整后,将输入弱分类器的所有语料样本的权重进行相加,得到总值;将所有语料样本中识别错误的语料样本的权重进行相加,得到错误值;
用错误值除以总值,将得到的相除结果作为相应弱分类器的权重。
4. 如权利要求1所述的方法,其特征在于,将语料样本输入弱分类器进行分类识 别时,若识别失败,则放弃对相应语料样本的分类;放弃分类的语料样本不参与错误率的计算。
5. 如权利要求1至4中任一项所述的方法,其特征在于,弱分类器对待分类语句进行分类时,若对待分类语句识别失败,则放弃对相应待分类语句的分类;放弃分类的弱分类器不参与几率值的统计。
6. 一种进行语句识别的装置,其特征在于,该装置包括语料标注单元、语料训练单元和识别单元;
所述语料标注单元,对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;
所述语料训练单元,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量,当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;
所述识别单元,将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果。
7. 如权利要求6所述的装置,其特征在于,所述语料训练单元,还对样本权重进行调整,具体地:将语料样本输入弱分类器进行分类识别后,若弱分类器识别出的分类结果与标准分类结果不一致,则增加相应语料样本的权重,若分类结果与标准分类结果一致,则降低相应语料样本的权重。
8. 如权利要求7所述的装置,其特征在于,所述语料训练单元,根据错误率设置相应弱分类器的权重时,具体地:对样本权重进行调整后,将输入弱分类器的所有语料样本的权重进行相加,得到总值;将所有语料样本中识别错误的语料样本的权重进行相加,得到错误值;用错误值除以总值,将得到的相除结果作为相应弱分类器的权重。
9. 如权利要求7所述的装置,其特征在于,所述语料训练单元,将语料样本输入弱分类器进行分类识别时,若识别失败,则放弃对相应语料样本的分类;放弃分类的语料样本不参与错误率的计算。
10. 如权利要求6至9中任一项所述的装置,其特征在于,所述识别单元,由弱分类器对待分类语句进行分类时,若对待分类语句识别失败,则放弃对相应待分类语句的分类;放弃分类的弱分类器不参与几率值的统计。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年04月09日向国家知识产权局提出了复审请求,同时提交了权利要求书的修改替换文本,将权利要求书修改为权利要求1-8。复审请求人认为:(1)对比文件2没有公开技术特征“定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器”,对比文件2中关键字表中的关键字之间并不是属于同一语料实例的关系,而本申请特征向量和分类结果都是对应于同一个实例语料的。(2)对比文件1和对比文件2中并未公开根据分类器的错误率来设置分类器的权重以及根据几率来确定最终分类结果的技术手段,对比文件1中每个基分类器在对语料样本分类时,是计算了语料样本属于每个分类的程度,并未明确指出语料样本属于哪个分类,因此,其在最终确定语料样本的分类时,是综合所有基分类器对语料样本属于某个分类的程度来评价语料样本的分类的,而本申请中的弱分类器可以直接确定每个语料样本的分类,而语料样本的最终分类则是根据确定语料样本所属分类相同的所有弱分类器的权重统计结果确定的,对比文件1和本申请在确定语料样本的最终分类时采用的是完全不同的技术方案,这也不属于本领域的惯用手段。(3)对比文件1中每个基分类器在对语料样本分类时,是计算了语料样本属于每个分类的程度,并未明确指出语料样本属于哪个分类,本申请中对识别失败的样本放弃分类的前提是:弱分类器可以直接识别每一语料样本的类别,基于这一前提,才存在识别不出分类的情况(即识别失败),因此,才有了在识别不出分类时,对识别失败的样本放弃分类,并且该未分类的样本不参与错误率的计算。
经形式审查合格,国家知识产权局于2018年05月03日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为复审请求人的意见陈述不具备说服力,因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019 年02 月19 日向复审请求人发出复审通知书,指出:权利要求1-8相对于对比文件1、对比文件2和本领域公知常识的结合不具备专利法第22条第3款规定的创造性。
复审请求人于2019 年03 月27 日提交了意见陈述书,同时提交了权利要求书的修改替换文本,将权利要求书修改为权利要求1-6。复审请求人认为:(1)本申请中映射分类器中是实例语料的特征向量与实例语料的分类之间的映射关系。而对比文件2中,虽然可以根据关键字表建立查询词中的关键字列表与包含各关键字的分类的预测目录列表之间的对应关系,但是此对应关系与本申请中同一语料实例的特征向量与分类结果之间的映射关系是完全不同的,无法根据此对应关系识别一个待分类语句的分类。(2)在对比文件1中由于各基分类器都是预测每个语句属于各分类的概率,并不存在错误路和误差率的概念,虽然提到了根据各基分类器的性能进行分类器权重设置,但是并未涉及具体的分类器权重设置方法,也不涉及对样本权重进行设置,而且显然不是根据错误率和误差率进行分类器的权重设置的以及根据分类器对样本的识别结果对样本权重进行调整。(3)根据各个弱分类器的权重来计算分类结果以及弃权机制都不属于本领域的惯用技术手段。
合议组于2019年06月06日向复审请求人发出第二次复审通知书,指出:权利要求1-6相对于对比文件1、对比文件2和本领域公知常识的结合不具备专利法第22条第3款规定的创造性。
复审请求人于2019 年07 月10 日提交了意见陈述书,同时提交了权利要求书的修改替换文本,将权利要求书修改为权利要求1-6。复审请求人认为:(1)本申请中映射分类器中是实例语料的特征向量与实例语料的分类之间的映射关系。而对比文件2中,虽然可以根据关键字表建立查询词中的关键字列表与包含各关键字的分类的预测目录列表之间的对应关系,仅根据关键字与目录的映射关系,只能确定查询词对应的一个预测目录列表,无法确定查询词对应的唯一目录。(2)“语料样本输入弱分类器进行识别时,若识别失败,则放弃对相应语料样本的分类,放弃分类的语料样本不参与错误率的计算”不属于本领域的惯用技术手段。(3)根据各个弱分类器的权重来计算分类结果以及弃权机制都不属于本领域的惯用技术手段。
复审请求人于2019年07月10日提交的新修改的权利要求书如下:
“1. 一种进行语句识别的方法,其特征在于,
对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;
定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;
将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;
将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;
该方法还包括:
将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;
对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;
将几率值最大的分类结果作为待分类语句的最终识别结果;
其中,
将语料样本输入弱分类器进行分类识别时,若识别失败,则放弃对相应语料样本的分类;放弃分类的语料样本不参与错误率的计算;
弱分类器对待分类语句进行分类时,若对待分类语句识别失败,则放弃对相应待分类语句的分类;放弃分类的弱分类器不参与几率值的统计。
2. 如权利要求1所述的方法,其特征在于,该方法还包括对样本权重进行调整,具体地:
将语料样本输入弱分类器进行分类识别后,若弱分类器识别出的分类结果与标准分类结果不一致,则增加相应语料样本的权重,若分类结果与标准分类结果一致,则降低相应语料样本的权重。
3. 如权利要求2所述的方法,其特征在于,所述根据错误率设置相应弱分类器的 权重包括:
对样本权重进行调整后,将输入弱分类器的所有语料样本的权重进行相加,得到总值;将所有语料样本中识别错误的语料样本的权重进行相加,得到错误值;
用错误值除以总值,将得到的相除结果作为相应弱分类器的权重。
4. 一种进行语句识别的装置,其特征在于,该装置包括语料标注单元、语料训练单元和识别单元;
所述语料标注单元,对实例语料进行分类标注,得到标准分类结果;并对实例语料进行特征向量提取;
所述语料训练单元,定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;将语料样本输入弱分类器进行分类识别,所述语料样本包含实例语料的特征向量,当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;
所述识别单元,将待分类语句输入各弱分类器,弱分类器对待分类语句进行分类,得到分类结果;对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果;
其中,
所述语料训练单元,将语料样本输入弱分类器进行分类识别时,若识别失败,则放弃对相应语料样本的分类;放弃分类的语料样本不参与错误率的计算;
所述识别单元,由弱分类器对待分类语句进行分类时,若对待分类语句识别失败,则放弃对相应待分类语句的分类;放弃分类的弱分类器不参与几率值的统计。
5. 如权利要求4所述的装置,其特征在于,所述语料训练单元,还对样本权重进行调整,具体地:将语料样本输入弱分类器进行分类识别后,若弱分类器识别出的分类结果与标准分类结果不一致,则增加相应语料样本的权重,若分类结果与标准分类结果一致,则降低相应语料样本的权重。
6. 如权利要求5所述的装置,其特征在于,所述语料训练单元,根据错误率设置 相应弱分类器的权重时,具体地:对样本权重进行调整后,将输入弱分类器的所有语料样本的权重进行相加,得到总值;将所有语料样本中识别错误的语料样本的权重进行相加,得到错误值;用错误值除以总值,将得到的相除结果作为相应弱分类器的权重。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人在答复复审通知书时提交了权利要求书的修改替换文本,经审查,所述修改符合专利法第33条以及专利法实施细则第61条第1款的规定。因此本复审决定所针对的审查文本为:复审请求人于申请日2015年05月29日提交的说明书第0001-0084段、说明书附图图 1-4、说明书摘要以及摘要附图,于2019年07月10日提交的权利要求第1-6项。
关于专利法第22条第3款
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步。
本复审请求审查决定所使用的对比文件与驳回决定及复审通知书中所使用的对比文件相同,即:
对比文件1:CN102789498 A,公开日为2012年11月21日;
对比文件2:“本地搜索中查询词分类器的设计与实现”,刘新春,万方数据企业知识服务平台,摘要第2-4段,公开日为2009年12月31日。
2.1、权利要求1不具备创造性
权利要求1要求保护一种进行语句识别的方法。对比文件1公开了一种基于集成学习的中文评论文本的情感分类方法(相当于一种进行语句识别的方法),并具体公开了如下技术特征(参见说明书第[0032]段-[0074]段):选取同一种(或同一类)评论对象,如酒店评论,所有评论文本经人工标注后形成训练语料库,对于已标注的评论文本,类标号y已知(相当于对实例语料进行分类标注,得到标准分类结果);不论是语料库中的已标注的评论文本,还是新的待分类的评论文本,都需要进行预处理,其任务是将评论文本转化为一个向量x;首先利用bi-gram方法获得特征,并利用基于Fisher判别的特征约简算法从中提取NFEATURE个特征,然后利用Binary-based方法获得评论文本对应的向量的每个特征的值(相当于对实例语料进行特征向量提取);输入训练样本并行地序列训练多分类器系统(该训练样本必然包含上述语料库中评论文本的特征向量,相当于所述语料样本包含实例语料的特征向量);用基分类器对待分类的中文评论文本分类(相当于将语料样本输入弱分类器进行分类识别),将分类输出转化为直觉模糊数,基分类器的输出首先按输出向量的范数来区分分类器的优劣,再对性能较好的基分类器赋予较高的权重,具体为步骤301,将待分类的评论文本输入到Q个基分类器,输出汇总成矩阵,步骤302,将Q个基分类器的输出的每一项转化为直觉模糊数,公式如下:
,其中和分别代表了待分类评论文本属于以及不属于各类别的程度,步骤303,计算待分类评论文本属于以及不属于各类别的程度,公式如下:
,公式中权重w表示各个基分类器之间的相对重要性,步骤304,分类,将C个步骤303获得的直觉模糊数最大值设置为待分类评论文本的类别。
权利要求1与对比文件1相比,区别技术特征如下:
(1)定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器;当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别;
(2)将弱分类器识别出的分类结果与标准分类结果进行比较,如果一致,则分类正确,如果不一致,则分类错误;统计出弱分类器分类识别的错误率,根据错误率设置相应弱分类器的权重;将语料样本输入弱分类器进行分类识别时,若识别失败,则放弃对相应语料样本的分类;放弃分类的语料样本不参与错误率的计算;
(3)对输出相同分类结果的所有弱分类器的权重进行统计,得到相应分类结果的几率值;将几率值最大的分类结果作为待分类语句的最终识别结果;弱分类器对待分类语句进行分类时,若对待分类语句识别失败,则放弃对相应待分类语句的分类;放弃分类的弱分类器不参与几率值的统计。
根据上述区别技术特征可以确定,本权利要求实际解决的技术问题是提供另外一种能够准确地进行语句识别的技术方案。
对于区别特征(1),对比文件2公开了一种查询词分类器系统,并具体公开如下技术特征(参见摘要第2-4段):本文中使用两种分类器协同工作,一种是关键字映射分类器,另一种是朴素贝叶斯分类器,两者的权重相同,关键字映射分类器是利用一份关键字表来预测查询词的目录属性,当查询词含有某一个关键字时,认为有很大概率属于该目录(相当于定制出映射分类器,映射分类器中设置特征向量与分类结果之间的映射关系;将普通分类器和映射分类器组合成弱分类器);朴素贝叶斯分类器是利用词频进行分类的;首先要进行查询词扩展,目的是丰富查询词的信息里。然后,从训练数据中生成词典和朴素贝叶斯模型,并利用文档频率、信息增益和X2统计进行特征值迭择缩小特征值空间(相当于当弱分类器为普通分类器时,先对普通分类器进行训练,再由训练后的分类模型进行分类识别)。可见对比文件2公开了区别特征(1),且该特征在对比文件2中所起作用与其在权利要求1中作用相同,均是为了改进基分类器以提高分类结果的准确性,因此,对比文件2给出了将上述技术手段应用于对比文件1以解决其技术问题的启示。
对于区别特征(2),在集成分类器技术领域常用的衡量分类器性能优劣的指标包括误差率和错误率,为了提高分类的准确率通常给予性能更好的分类器更大的权重,基于此本领域技术人员容易想到根据错误率来设置基分类器的权重,从而实现对分类器分配不同的权重,提高分类精度,这属于本领域的惯用技术手段。另外,在集成学习技术领域,为了提高分类精度将语料样本输入弱分类器进行分类识别时若识别失败,则放弃对相应语料样本的分类;放弃分类的语料样本不参与错误率的计算,这属于本领域的惯用技术手段。
对于区别特征(3),对比文件1公开了通过直觉模糊算子来集成多个基分类器的分类结果,而对于本领域技术人员而言加权投票也是常有的一种构造强分类器的形式,对于加权投票形式而言,加权的权重通常是每个基分类器器的权重,例如对于最简单的二分类(1和-1)而言,每个基分类器都会输出分类结果1或者-1,通过统计可以获得输出分类结果1的分类器的个数和输出分类结果-1的基分类器的个数,然后再结合对应的基分类器的权重就可以得出输出分类结果1的加权值,输出分类结果-1的加权值,该加权值可以从一定的程度上反映属于相应类别的可能性,最后将可能性最大的分类结果作为强分类的器的分类结果即可,另外,在进行加权投票时候还可以引入弃权机制,具体而言将语料样本输入弱分类器进行分类识别时若识别失败,则放弃对相应语料样本的分类,放弃分类的语料样本不参与错误率的计算,从而提高分类器的分类的准确率,这属于本领域的惯用技术手段。
由此可知,在对比文件1的基础上结合对比文件2以及本领域的惯用手段从而得到权利要求1的技术方案,对于本领域技术人员而言是显而易见的,即权利要求1不具备突出的实质性特点和显著的进步,不符合专利法第二十二条第三款有关创造性的规定。
2.2、权利要求2不具备创造性
权利要求2引用权利要求1。在对基分类器进行训练时,为了提高分类的准确率可以在迭代的过程中关注分类困难的样本,这就需要根据分类结果的是否正确来设置样本的权重,在初始是样本权重一般相同,在迭代过程中如果某个样本分类错误则根据规则增加该样本的权重,如果某个样本分类正确则根据规则降低该样本的权重,这也属于本领域的惯用技术手段。因此,当其引用的权利要求不具备创造性时,本权利要求也不具备专利法第二十二条第三款规定的创造性。
2.3、权利要求3不具备创造性
权利要求3引用权利要求1。在集成学习技术领域,常用的衡量分类器性能优劣的指标还包括错误率,对于样本具有不同的权重时,在计算错误率时还可以考虑样本的权重,这时错误率可以表示为:错误分类的样本权重/样本总权重,基于对比文件1已经公开了对性能较好的基分类器赋予较高的权重,本领域技术人员容易想到根据加权后的错误率来设置基分类器的权重,从而提高分类精度,这属于本领域的惯用技术手段。因此,当其引用的权利要求不具备创造性时,本权利要求也不具备专利法第二十二条第三款规定的创造性。
2.4、权利要求4-6不具备创造性
权利要求4-6请求保护一种进行语句识别的装置,该装置权利要求为全部以计算机程序流程为依据,按照与反映该计算机程序流程的方法权利要求1-3完全对应一致的方式撰写。因此基于评述权利要求1-3不具备创造性的相同理由,权利要求4-6不具备专利法第二十二条第三款规定的创造性。
3、答复复审请求人的意见陈述
对于复审请求人的意见陈述,合议组认为:
(1)对比文件2公开了一种查询词分类器系统,关键字映射分类器实质是根据查询词当中包含的关键词来确定查询的类别,该分类器建立了关键字与目录之间的映射关系,因此可以通过关键字确定其对应的目录。另外,通过对比文件2类似的方式建立一一对应的映射关系也是容易想到的。
(2)根据分类器的错误率来设置分类器的权重以及根据识别结果的一致性来设置样本的权重都是本领域的公知常识,如果一个分类器不能识别样本,那么自然不能对其识别的结果进行判断,基于此本领域技术人员容易想到在进行错误率判断时不考虑该样本的贡献。
(3)加权投票的属于集成学习领域的公知常识,至于加权投票的具体形式是首先将分类类别对应的弱分类器的权重进行加和,然后比较类别之间的加和的大小,将加和最大的类别作为强分类器的类别。另外,在进行加权投票时候还可以引入弃权机制,具体而言将语料样本输入弱分类器进行分类识别时若识别失败,则放弃对相应语料样本的分类,放弃分类的语料样本不参与错误率的计算,从而提高分类器的分类的准确率,这都属于本领域的惯用技术手段。
因此,对于复审请求人的意见陈述,合议组不予支持。
三、决定
维持国家知识产权局于2018 年01 月05 日对本申请作出的驳回决定。
如对本决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。