一种提供高频问题回答的方法和装置-复审决定


发明创造名称:一种提供高频问题回答的方法和装置
外观设计名称:
决定号:183072
决定日:2019-07-04
委内编号:1F269102
优先权日:
申请(专利)号:201410049585.6
申请日:2014-02-12
复审请求人:北京京东尚科信息技术有限公司 北京京东世纪贸易有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:王南野
合议组组长:慈丽雁
参审员:尹朝丽
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求与作为最接近现有技术的对比文件相比存在区别技术特征,但部分区别技术特征既未被其他对比文件公开,上述对比文件也未给出采用上述部分区别技术特征以解决相应技术问题的技术启示,上述部分区别技术特征也不是本领域的公知常识,并能够带来有益的技术效果,则相对于上述对比文件和公知常识结合的结合,该权利要求具有创造性。
全文:
本复审请求涉及申请号为201410049585.6,名称为“一种提供高频问题回答的方法和装置”的发明专利申请(下称“本申请”)。申请人为北京京东尚科信息技术有限公司、北京京东世纪贸易有限公司。本申请的申请日为2014年02月12日,公开日为2015年08月12日。
经实质审查,国家知识产权局原审查部门于2018年09月29日发出驳回决定,驳回了本申请,其理由是:权利要求1-4不具有专利法第22条第3款规定的创造性。权利要求1与对比文件1(CN103425640A,公开日为2013年12月04日)相比的区别技术特征为:1)该权利要求将答案相同的高频问题归为同一高频问题类;2)步骤A21:按以下公式计算出高频问题集中每个特征词的信息增益值:
;其中,n表示高频问题的类别数目;p(ci)表示类别ci的先验概率,p(t)表示词t的先验概率, p(ci|t)表示出现t时,类别ci出现的概率, 表示不出现t时,类别ci出现的概率;步骤A22:根据每个特征词的信息增益值,将高频问题向量化,得到向量化后的高频问题集; 步骤A23:把向量化后的高频问题集作为数据进行模型训练,从而得到所述分类模型;3)在所述步骤C中,若最大的一个属于概率大于预设值,则输出对应该属于概率的高频问题类的答案,否则提供大小排名在前的预设数目个属于概率所对应的高频问题类的答案。基于上述区别技术特征1)和2),该权利要求实际解决的技术问题是:选择何种问题分类的方式以及如何进行分类。基于上述区别技术特征3),该权利要求实际解决的技术问题是:如何选择答案的输出。对于区别技术特征1)和2),对比文件2(CN103049433A,公开日为2013年04月17日)给出了将答案相同的高频问题归为同一高频问题类的技术特征应用到对比文件1中以解决其技术问题的启示。而利用信息增益进行文本的分类是本领域的惯用技术手段(文献:“基于信息增益的 LDA 模型的短文本分类”沈竞,重庆文理学院学报(自然科学版),第64-66页,2011年12月;“文本分类入门(十一)特征选择方法之信息增益”,嘉士伯的Java小屋,http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html,第1-8页,2009年3月14日;“一种基于信息增益的特征优化选择方法”刘庆和 等,计算机工程与应用,第130-132、136页,2011年12月31日,均提及使用与本申请相同的信息增益计算公式进行文本的分类),因此,本领域技术人员在面对如何对高频问题这一特定文档进行分类的时候,不难想到利用已经掌握的使用信息增益进行文本分类的方式,以进行分类模型的训练。区别技术特征3)是本领域技术人员在对比文件1公开内容的基础上容易想到的。由此可知,在对比文件1的基础上结合对比文件2和本领域的惯用技术手段,得出该权利要求要求保护的技术方案,对本领域的技术人员来说是显而易见的,该权利要求不具有创造性。权利要求2的附加技术特征部分被对比文件1公开,部分是公知常识,因此权利要求2也不具有创造性。权利要求3-4是与权利要求1-2对应的产品权利要求,技术特征完全对应一致,基于相似的理由,权利要求3-4也不具有创造性。
驳回决定所依据的文本为申请日2014年02月12日提交的说明书摘要、说明书第1-84段、摘要附图、说明书附图图1-6;2018年05月31日提交的权利要求第1-4项。驳回决定所针对的权利要求书如下:
“1. 一种提供高频问题回答的方法,其特征在于,包括:
步骤A:根据预选的高频问题集,采用文本分类算法得出高频问题的分类模型,其中答案相同的高频问题归为同一高频问题类;
步骤B:使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几个高频问题类;
步骤C:根据当前待回答的高频问题对于步骤B中确定的高频问题类的属于概率,对当前待回答的高频问题进行答复;
所述步骤A包括:
步骤A1:对所述高频问题集进行特征化,使其中各个高频问题在特征化之后为多个特征词;
步骤A2:对特征化之后的所述多个高频问题进行模型训练从而得到所述分类模型;
其中,所述步骤A2包括:
步骤A21:按以下公式计算出高频问题集中每个特征词的信息增益值:

其中,n表示高频问题的类别数目;p(ci)表示类别ci的先验概率,p(t)表示词t的先验概率,p(ci|t)表示出现t时,类别ci出现的概率,表示不出现t时,类别ci出现的概率;
步骤A22:根据每个特征词的信息增益值,将高频问题向量化,得到向量化后的高频问题集;
步骤A23:把向量化后的高频问题集作为数据进行模型训练,从而得到所述分类模型;
在所述步骤C中,若最大的一个属于概率大于预设值,则输出对应该属于概率的高频问题类的答案,否则提供大小排名在前的预设数目个属于概率所对应的高频问题类的答案。
2. 根据权利要求1所述的方法,其特征在于,所述步骤A1包括:
对所述高频问题集依次进行文本纠错、分词、停用词过滤,然后按预设方式对所述高频问题集进行词语泛化,从而得到多个特征词。
3. 一种提供高频问题回答的装置,其特征在于,包括:
模型构建模块:用于根据预选的高频问题集,采用文本分类算法得出高频问题的分类模型,其中答案相同的高频问题归为同一高频问题类;
归类模块,用于使用所述分类模型,确定当前待回答的高频问题可能属于的一个或几个高频问题类;
答复模块,用于根据当前待回答的高频问题对于所述归类模块确定的高频问题类的属于概率,对当前待回答的高频问题进行答复;
所述模型构建模块包括:
特征化单元,用于对所述高频问题集进行特征化,使其中各个高频问题在特征化之后为多个特征词;
训练单元,用于对特征化之后的所述多个高频问题进行模型训练从而得到所述分类模型;
其中,所述训练单元用于:
按以下公式计算出高频问题集中每个特征词的信息增益值:

其中,n表示高频问题的类别数目;p(ci)表示类别ci的先验概率,p(t)表示词t的先验概率,p(ci|t)表示出现t时,类别ci出现的概率,表示不出现t时,类别ci出现的概率;
根据每个特征词的信息增益值,将高频问题向量化,得到向量化后的高频问题集;
把向量化后的高频问题集作为数据进行模型训练,从而得到所述分类模型;
所述答复模块包括:
排序模块,用于对所述归类模块确定的高频问题类的属于概率按 大小进行排序;
判断输出模块,用于判断最大的一个属于概率是否大于预设值,若是,则输出对应该属于概率的高频问题类的答案,否则输出大小排名在前的预设数目个属于概率所对应的高频问题类的特征化的高频问题;
回答模块,用于输出被选择的所述特征化高频问题的答案。
4. 根据权利要求3所述的装置,其特征在于,所述特征化单元还用于:对所述高频问题集依次进行文本纠错、分词、停用词过滤,然后按预设方式对所述高频问题集进行词语泛化,从而得到多个特征词。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年12月18日向国家知识产权局提出了复审请求,未修改申请文件。复审请求人认为:(1)对比文件2将问题ID以相同的回答知识点ID进行存储,并不能得出对比文件2将答案相同的问题归为同一问题类的结论,而且对比文件2也没有公开对问题向量进行模型训练的步骤,对比文件2仅仅是以问题ID、问题向量及回答知识点ID的形式进行存储和匹配,并通过与向量的相似度来确定答复知识点,因此对比文件2的技术方案与本申请限定的建立分类模型、并通过分类模型匹配答复的技术方案完全不同,本申请技术方案中的处理主要是数值计算,效率很高;(2)本申请请求保护的不是信息增益公式,而是采用信息增益公式训练模型的技术方案,本申请通过分类模型确定当前待回答的高频问题所属的问题类,有助于尽快地处理高频问题;(3)对比文件1与本申请在分类方式上完全不同,由此得到的模型也必然是不同的,对比文件1与本申请匹配答案的方式不同,对比文件1是基于相似度,而本申请是基于概率,对比文件1中采用语义模型进行分类,将问题与相应的语义类别的文本进行匹配得到一个相似度,根据该相似度得到一个文本特征,再根据该文本特征从多媒体数据库中得到答案,并不是如驳回决定中所指出的:使用模型对当前的问题进行回答。
经形式审查合格,国家知识产权局于2018年12月29日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为,(1)对比文件1给出了进行模型训练,使用模型,得出输入问题答案的框架(且这种框架模型也是本领域常见自动问答系统模式),与权利要求1的主体步骤的主要区别在于模型的训练标准不同,即本申请是根据答案来对问题进行分类的;而对比文件2给出了对答案相同的问题进行分类这一思想,参见对比文件2第0050-0053段,0138、0140、0152、0183-184段可知,对比文件2将不同的问题按照回答知识点ID进行了分类(第0183段末尾也明确说明了),且对比文件2也是用于自动问答系统,因此,在对比文件1的基础上,本领域技术人员有动机选择使用对比文件2提供的分类标准对答案相同的问题进行分类进行模型的训练,而在本领域技术人员使用该标准进行训练时,具体的训练过程以及对于模型的使用,均属于本领域的惯用技术手段;(2)对于复审请求人认为的对比文件1使用的是相似度,本申请使用的是判断属于模型的概率的方式进行分类的方式,本领域技术人员悉知,相似度计算和概率判断均是常用的判断分类的方式,相似度的计算体现的也是隶属于某一类别的可能性的大小,因此本领域技术人员也可以选择使用不同的方式进行分类的判断。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
决定的理由
(一)审查文本的认定
复审请求人在提出复审请求时未提交修改文本。本复审请求审查决定所针对的文本与驳回决定针对的文本相同,即申请日2014年02月12日提交的说明书摘要、说明书第1-84段、摘要附图、说明书附图图1-6;2018年05月31日提交的权利要求第1-4项。
(二)关于专利法第22条第3款
专利法第22条第3款规定:
创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果一项权利要求与作为最接近现有技术的对比文件相比存在区别技术特征,但部分区别技术特征既未被其他对比文件公开,上述对比文件也未给出采用上述部分区别技术特征以解决相应技术问题的技术启示,上述部分区别技术特征也不是本领域的公知常识,并能够带来有益的技术效果,则相对于上述对比文件和公知常识的结合,该权利要求具有创造性。
在本复审请求审查决定中引用的对比文件与原审查部门在驳回决定中引用的对比文件相同,即:
对比文件1:CN103425640A,公开日为2013年12月04日;
对比文件2:CN103049433A,公开日为2013年04月17日。
其中,对比文件1是最接近的现有技术。
1.权利要求1具有专利法第22条第3款规定的创造性。
权利要求1请求保护一种提供高频问题回答的方法。对比文件1公开了一种多媒体问答系统及方法,并具体公开了如下内容(参见说明书第0027-0038段):在判断预设多媒体数据库中是否存在某一语义类别时,可以利用预先建立好的概率潜在语义模型获取输入的文本问题的语义类别与数据库中所有语义类别之间的相似度,将该文本问题归属到相似度大于某一预设值时所对应的数据库的一个或者多个语义类别中,也即该类别判断单元13输出结果为是,否则该类别判断单元13输出结果为否,相似度获取单元14,用于当类别判断单元13输出结果为是时,将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行匹配,获取每一文本特征与该特征信息之间的相似度,获取相似度大于预设阈值时对应的文本特征,并输出所述文本特征所对应的预先存储在所述多媒体数据库中的多媒体答案信息。由于当类别判断单元13输出结果为是时,将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行匹配,获取每一文本特征与该特征信息之间的相似度。对比文件1隐含公开了对高频问题集进行特征化,使其中各个高频问题在特征化之后为多个特征词。
权利要求1所要求保护的技术方案与对比文件1相比,区别在于:(1)得出高频问题的分类模型,其中答案相同的高频问题归为同一高频问题类,根据当前待回答的高频问题对于确定的高频问题类的属于概率,对当前待回答的高频问题进行答复,其中,若最大的一个属于概率大于预设值,则输出对应该属于概率的高频问题类的答案,否则提供大小排名在前的预设数目个属于概率所对应的高频问题类的答案;(2)采用文本分类算法得出高频问题的分类模型,具体包括对特征化之后的多个高频问题进行模型训练从而得到所述分类模型,其中模型训练得到分类模型的步骤包括:按以下公式计算出高频问题集中每个特征词的信息增益值:

;其中,n表示高频问题的类别数目;p(ci)表示类别ci的先验概率,p(t)表示词t的先验概率,p(ci|t)表示出现t时,类别ci出现的概率,表示不出现t时,类别ci出现的概率;根据每个特征词的信息增益值,将高频问题向量化,得到向量化后的高频问题集;把向量化后的高频问题集作为数据进行模型训练,从而得到所述分类模型。基于上述区别技术特征可以确定,权利要求1实际解决的技术问题是:提高高频问题的处理效率以及得出高频问题的分类模型。
对比文件2公开了一种自动问答方法及系统,具体公开了(参见说明书第0012-0071段)该方法包括:A、将接收到的问题向量化获得问题向量,所述问题向量包含多个向量元素;B、根据所述向量元素检索问答实例库,获得多个实例向量;任一所述实例向量至少包含一个向量元素;C、利用相似度计算公式,计算问题向量与多个实例向量的相似度;D、利用所述相似度确定答复知识点,输出与答复知识点对应的数据,在步骤A之前进一步包括A’、采样人工回答记录并向量化,生成问答实例库,步骤A’包括:A’1、确定需自动问答的知识点,为所述需自动问答的知识点分配问题ID;A’2、根据所述需自动问答的知识点,对人工回答记录进行采样,获得与所述需自动问答的知识点对应的问答实例,为所述问答实例包含的知识点分配回答知识点ID;A’3、向量化所述问答实例包含的问题,获得问题向量;A’4、将所述问答实例以三元组的形式进行存储;任一所述问答实例的三元组包含问题ID、问题向量及回答知识点ID,步骤C包括:C1、将所述多个实例向量按照其包含的回答知识点ID进行归类;C2、对于同一回答知识点ID,获得调整后的向量元素;C3、利用所述调整后的向量元素在所述相同回答知识点ID对应的实例向量中的权重,计算所述调整后的向量元素在所述实例向量的余弦相似度。由此可见,对比文件2仅仅是将问题进行向量化,直接存储向量化后的问题向量以及对应的问题ID、回答知识点ID,但是并未建立将答案相同的高频问题归为同一高频问题类的模型。即对比文件2并没有公开将答案相同的高频问题归为同一高频问题类,也没有公开根据当前待回答的高频问题对于确定的高频问题类的属于概率,对当前待回答的高频问题进行答复。而且对比文件2先根据问题的向量元素检索问答实例库,获得多个实例向量,然后再将多个实例向量按照其包含的回答知识点ID进行归类,也就是先进行一次检索,对一次检索的结果按照回答知识点ID进行分类,对比文件2为问答实例包含的知识点分配回答知识点ID并存储的目的是对一次检索的结果进行二次排序,其不能解决本申请所要解决的提高高频问题的处理效率的技术问题,即对比文件2也没有给出采用区别技术特征(1)的技术启示。而且该区别技术特征(1)也不是本领域的公知常识。并且通过区别技术特征(1),权利要求1的技术方案取得了提高高频问题的处理效率的技术效果。
对于区别技术特征(2),文本分类中常用向量空间模型来表示文本,特征选择对于文本分类尤为重要,特征选择主要是从原始特征空间中选择出一组对分类最有效的特征,从而减少无关信息对文本信息处理过程的干扰,提高分类的准确性,信息增益是文本分类领域中较常见的特征选择算法,因此基于特征词的信息增益值,将高频问题向量化,把向量化后的高频问题集作为数据进行模型训练,从而得到分类模型,是本领域的公知常识,并且具体的信息增益值公式也是本领域常用的基于信息熵的信息增益计算公式。
由此可见,在对比文件1的基础上结合对比文件2和公知常识,得出权利要求1请求保护的技术方案,对本领域技术人员来说是非显而易见的。因此权利要求1所请求保护的技术方案具备突出的实质性特点和显著的进步,具有专利法第22条第3款规定的创造性。
2、权利要求2具有专利法第22条第3款规定的创造性。
由于权利要求1具有创造性,因此引用权利要求1的权利要求2也具有创造性。
3、权利要求3、4具有专利法第22条第3款规定的创造性。
权利要求3、4请求保护与权利要求1、2的方法相对应的装置,基于与评述权利要求1、2相同的理由,权利要求3、4也具有创造性。
至于本申请是否存在其他不符合专利法及其实施细则的缺陷,留待原审查部门继续进行审查程序。
(三)对驳回决定和前置审查相关意见的评述
合议组认为:(1)对比文件2说明书第0012-0016段中明确公开了,根据问题向量化后的向量元素检索问答实例库,获得多个实例向量,再利用相似度计算公式,计算问题向量与多个实例向量的相似度,由此可见,对比文件2先进行一次检索,再进行二次排序,这与本申请背景技术部分记载的技术手段是相同的,该现有的高频问题处理方案比较复杂耗时、容易出现用户发送的问题得不到响应或响应较慢的问题,而本申请的技术方案正是为了解决该现有的高频问题处理方案存在的前述问题,采用按照回答对高频问题进行分类的技术手段,对比文件2没有公开该技术手段,也没有给出采用该技术手段的技术启示;(2)由于本申请与对比文件1的分类方式不同,所以匹配答案的方式也不同,本申请中对高频问题进行分类的技术手段与匹配答案的技术手段相互配合,构成一个整体,能够取得提高高频问题的处理效率的技术效果。
三、决定
撤销国家知识产权局于2018年09月29日对本申请作出的驳回决定。由国家知识产权局原审查部门在申请日2014年02月12日提交的说明书摘要、说明书第1-84段、摘要附图、说明书附图图1-6;2018年05月31日提交的权利要求第1-4项的基础上对本申请继续进行审查。

如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: