
发明创造名称:一种词条推荐方法及装置
外观设计名称:
决定号:192090
决定日:2019-10-08
委内编号:1F268680
优先权日:
申请(专利)号:201210272391.3
申请日:2012-08-01
复审请求人:北京百度网讯科技有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:谢寅黎
合议组组长:孙泽竑
参审员:杨广辉
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果权利要求所要保护的技术方案相对于最接近的现有技术具有区别特征,而该区别特征为本领域的常用技术手段,且本领域技术人员在面对所要解决的技术问题时有动机将上述本领域的常用技术手段应用到最接近的现有技术中以解决所要解决的技术问题,并获得该权利要求所要求保护的技术方案,则该权利要求不具备创造性。
全文:
本复审请求审查决定涉及申请号为201210272391.3、名称为“一种词条推荐方法及装置”的发明专利申请(下文称本申请)。本申请的申请人为北京百度网讯科技有限公司,申请日为2012年08月01日,公开日为2012年12月19日。
经实质审查,国家知识产权局原审查部门于2018年08月30日发出驳回决定,以权利要求1、4-6、9-10不具备专利法第22条第3款规定的创造性为由驳回了本申请。具体理由是:权利要求1与对比文件1(US2009/0094020A1,公开日为2009年04月09日)的区别特征为:(1)对预置词条集合中的元素关联信息进行初始化;(2)关联度是通过增加获得;(3)构成词条A推荐结果的具体算法。而上述区别特征均为本领域的公知常识,因此权利要求1相对于对比文件1和公知常识的结合不具备创造性。权利要求4-5的附加技术特征为本领域的公知常识,因此权利要求4-5不具备创造性。权利要求6、9-10是与方法权利要求1、4-5相对应的产品权利要求,基于同样的理由和证据,权利要求6、9-10也不具备创造性。在其他说明部分指出:权利要求2、3的附加技术特征或为本领域的公知常识或被对比文件2(CN101520785A,公开日为2009年09月02日)公开,因此不具备创造性。权利要求7-8是与方法权利要求2-3相对应的产品权利要求,基于同样的理由和证据,权利要求7-8也不具备创造性。
驳回决定所依据的文本为:2018年07月17日提交的权利要求第1-10项,申请日2012年08月01日提交的说明书第1-203段、说明书附图图1-2、说明书摘要、摘要附图。
驳回决定所针对的权利要求书如下:
“1. 一种词条推荐方法,其特征在于,该方法包括:
对预置词条集合中的元素关联信息进行初始化;
根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
获得词条A之后,根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成词条A的推荐结果,在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
2. 根据权利要求1所述的方法,其特征在于,所述根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
3. 根据权利要求1所述的方法,其特征在于,所述根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
4. 根据权利要求1所述的方法,其特征在于,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词条构成推荐结果。
5. 根据权利要求1所述的方法,其特征在于,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积 较大的词条构成推荐结果。
6. 一种词条推荐装置,其特征在于,该装置包括:
关联信息初始化单元,用于对预置词条集合中的元素关联信息进行初始化;
关联信息管理单元,用于根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
推荐单元,用于在获得词条A之后,根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成词条A的推荐结果,在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
7. 根据权利要求6所述的装置,其特征在于,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
8. 根据权利要求6所述的装置,其特征在于,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
9. 根据权利要求6所述的装置,其特征在于,所述推荐单元,具体用于:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词条构成推荐结果。
10. 根据权利要求6所述的装置,其特征在于,所述推荐单元,具体用于:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积 较大的词条构成推荐结果。”
申请人(下文称复审请求人)对上述驳回决定不服,于2018年12月14日向国家知识产权局提出了复审请求,未提交修改文件。复审请求人认为:(1)对比文件1没有公开对预置词条集合中的元素关联信息进行初始化;(2)对比文件1并未涉及仅通过词语共现的页面来获取对应词语之间的亲和度以及增加对应词语之间的关联度;(3)对比文件1并未涉及根据词条之间的关联距离或关联度来选择相应的词条作为推荐内容。
经形式审查合格,国家知识产权局于2018年12月26日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:(1)对比文件1已经公开计算预置词条集合中的元素计算关联度;在数据处理前先对数据初始化属于惯用手段。(2)权利要求1中记载的是“根据共现关系增加关联度”,对比文件1的技术方案利用同时包含两个词语的文档的数量、包含两个词语中任一的文档的数量计算两个词语的亲和度,也是利用共现关系得到词语关联度;而根据共现关系获得关联度的算法属于本领域的常用算法,根据实际需求做出常规改进属于本领域技术人员容易想到且易于实现的。(3)对比文件1已经公开了利用亲和度生成关系网络图,即词语之间也具有关联距离及关联度。在本领域中,根据关联距离和关联度确定关联词语属于惯用技术手段。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年06月24日向复审请求人发出复审通知书,指出权利要求1-10不具备专利法第22条第3款规定的创造性,具体理由为:权利要求1与对比文件1的区别特征在于:(1)对预置词条集合中的元素关联信息进行初始化;(2)增加对应元素之间的关联度;(3)获得词条A之后,根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条,构成词条A的推荐结果。上述区别为本领域的常用的技术手段,因此权利要求1相对于对比文件1和本领域的常用技术手段的结合不具备创造性。权利要求2-5的附加技术特征或被对比文件1公开或被对比文件2公开或为本领域的常用技术手段,因此也不具备创造性。权利要求6-10是一组与权利要求1-5对应的装置,基于相同的理由和证据,也不具备创造性。
复审请求人于2019年08月09日提交了意见陈述书,并提交了权利要求书的修改替换页,包括权利要求第1-10项。在权利要求1中增加技术特征“根据词条推荐的应用环境预置词条集合”、“确定词条A在所述词条集合中的关联词条”,将权利要求1中的“对预置词条集合中的元素关联信息进行初始化”修改后“并对预置的词条集合中的元素关联信息进行初始化”,将权利要求1中的“根据词条在文档中的共现关系”修改为“根据属于所述词条集合中的词条在文档中的共现关系”,将权利要求6作了与权利要求1相应的修改,将权利要求2、3中的“所述根据词条在文档中的共现关系”修改为“所述根据属于所述词条集合中的词条在文档中的共现关系”。复审请求人认为:(1)权利要求1中基于预置的与词条推荐的应用环境所对应的词条集合进行词条推荐,执行对词条集合中词条之间关联信息初始化操作,而对比文件1不涉及到词条集合中确定关联词条。(2)权利要求1是根据属于词条集合中的词条在文档中的共现关系,在词条集合中增加对应元素之间的关联度,而不是根据两个词条在文档中的共现关系来计算两个词条之间的关联度。计算两个词条之间的关联度必须获取包括词语A或词语B的页面的数量,而权利要求1只分析同时包括词语A以及词语B的文档,即可完成增加两个词语之间关联度的操作。
复审请求人提交的修改后的权利要求书如下:
“1. 一种词条推荐方法,其特征在于,该方法包括:
根据词条推荐的应用环境预置词条集合,并对预置的词条集合中的元素关联信息进行初始化;
根据属于所述词条集合中的词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
获得词条A之后,确定词条A在所述词条集合中的关联词条,根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成词条A的推荐结果,在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
2. 根据权利要求1所述的方法,其特征在于,所述根据属于所述词条集合中的词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
3. 根据权利要求1所述的方法,其特征在于,所述根据属于所述词条集合中的词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
4. 根据权利要求1所述的方法,其特征在于,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词 条构成推荐结果。
5. 根据权利要求1所述的方法,其特征在于,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积较大的词条构成推荐结果。
6. 一种词条推荐装置,其特征在于,该装置包括:
关联信息初始化单元,用于根据词条推荐的应用环境预置词条集合,并对预置的词条集合中的元素关联信息进行初始化;
关联信息管理单元,用于根据属于所述词条集合中的词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
推荐单元,用于在获得词条A之后,确定词条A在所述词条集合中的关联词条,根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成词条A的推荐结果,在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
7. 根据权利要求6所述的装置,其特征在于,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
8. 根据权利要求6所述的装置,其特征在于,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
9. 根据权利要求6所述的装置,其特征在于,所述推荐单元,具体用于:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词 条构成推荐结果。
10. 根据权利要求6所述的装置,其特征在于,所述推荐单元,具体用于:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积较大的词条构成推荐结果。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
(一)审查文本的认定
复审请求人于2019年08月09日提交了修改后的权利要求第1-10项。经审查,上述修改符合专利法实施细则第61条第1款及专利法第33条的规定。本复审决定针对的审查文本为:2019年08月09日提交的权利要求第1-10项,申请日2012年08月01日提交的说明书第1-203段、说明书附图图1-2、说明书摘要、摘要附图。
(二)具体理由的阐述
专利法第22条第3款规定,创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果权利要求所要保护的技术方案相对于最接近的现有技术具有区别特征,而该区别特征为本领域的常用技术手段,且本领域技术人员在面对所要解决的技术问题时有动机将上述本领域的常用技术手段应用到最接近的现有技术中以解决所要解决的技术问题,并获得该权利要求所要求保护的技术方案,则该权利要求不具备创造性。
本复审决定所引用的对比文件与驳回决定和复审通知书中所引用的对比文件相同,即:
对比文件1:US 2009/0094020A1,公开日为2009年04月09日;
对比文件2:CN 101520785A,公开日为2009年09月02日。
其中,对比文件1为最接近的现有技术。
1、权利要求1不具备专利法第22条第3款规定的创造性。
权利要求1要求保护一种词条推荐方法。对比文件1公开了一种词条推荐方法,并具体公开了以下技术特征(参见说明书第16-138段及附图1-11):
对于词语Wi和词语Wj来说,词语Wi和词语Wj合取页面的数量P(Wi&Wj)是指既包括词语Wi又包括词语Wj的页面(即词条在文档中共现)的数量,析取页面量P(Wi Wj)是指包括词语Wi或词语Wj中的任一个的页面的数量,词语Wi和词语Wj的亲和度(Wi,Wj)= P(Wi&Wj)/ P(Wi Wj), 该公式体现了亲和度(Wi,Wj)(即元素之间的关联度)随着既包括Wi又包括词语Wj的页面的数量的增加(即词条在文档中的共现关系)而增加的特性;
亲和度图150(参见附图6)包括节点154和链路158,节点154表示词语,节点154之间的有向边的权重表示由节点所表示的词语之间的亲和度,通过链路分析,选取高于亲和度阈值的词语(即在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果)。
权利要求1与对比文件1的区别特征在于:(1)根据词条推荐的应用环境预置词条集合,并对预置的词条集合中的元素关联信息进行初始化,词条属于所述词条集合中,确定词条A的关联词条在所述词条集合中;(2)增加对应元素之间的关联度;(3)获得词条A之后,根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条,构成词条A的推荐结果。
基于上述区别特征,权利要求1的技术方案实际要解决的技术问题是:如何在不同的应用环境中设置推荐范围、如何为计算关联度作准备、如何在文档分析的过程中改变关联度以及如何选取推荐结果。
针对上述区别特征(1),对比文件1公开了推荐词条以指定本体空间,本体空间为定义某一领域内的专业词汇以及它们之间的关系,即对比文件1中的词条推荐也是在一定词条范围内的,而根据不同的应用环境预置词条集合,从而确定词条推荐的范围,使得不论是获得的词条还是确认的关联词条都在预置词条集合内,是本领域的常用技术手段;在分析词条之间的关联度之前,将词条之间可能存在的已有关联度初始化,以免干扰当前的关联度分析是本领域常用的技术手段。
针对上述区别特征(2),对比文件1公开了在给定文档数量下的两个词语之间的亲和度的计算公式P(Wi&Wj)/ P(Wi Wj),该公式体现了既包括词语Wi又包括词语Wj的页面(即词条在文档中共现)的数量越高,则词语Wi和词语Wj之间的亲和度越高的特性,则在增加新的文档时,随着词语Wi和词语Wj共现数量增加,增加两个词语之间的亲和度(即关联度)对于本领域技术人员来说是显而易见的。
针对上述区别特征(3),对比文件1公开了亲和度图150(参见附图6),通过链路分析来选择高亲和度词语。本领域技术人员知晓,链路分析中链路越近,则相关度越高,链路越远,则相关度越低,即直接关联的词语的相关度高于间接关联的词语的相关度,因此,选取距离越近的关联词条作为推荐词条,对于本领域的技术人员来说是本领域的常用技术手段。
因此,在对比文件1的基础上结合本领域的常用技术手段得到权利要求1所要求保护的技术方案对于本领域的技术人员来说是显而易见的,权利要求1不具有突出的实质性特点和显著的进步,不具备专利法第22条第3款规定的创造性。
2、权利要求2不具备专利法第22条第3款规定的创造性。
权利要求2对权利要求1作了进一步限定。对比文件1公开了(参见说明书第109段):根据TF-IDF对词条进行排位(在排位之前,必然需要先对词条的TF-IDF进行计算,因此隐含公开了对于给定文档,统计集合中元素在文档中TF-IDF值),TF-IDF为词频-逆文档频率,较高的频率可以产生较高的级别,选取较高频率的词语为更相关词。而对于另一部分附加技术特征“确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度”,在对比文件1公开的根据TF-IDF确定推荐词的基础上,确定TF-IDF满足预设条件的两个或多个词语,增加它们的关联度,是本领域技术人员容易想到的。因此,当权利要求1不具备创造性时,其从属权利要求2也不具备专利法第22条第3款规定的创造性。
3、权利要求3不具备专利法第22条第3款规定的创造性。
权利要求3对权利要求1作了进一步限定。其附加技术特征构成了权利要求3与对比文件1的又一区别特征,基于该区别特征,权利要求3的技术方案进一步解决了:如何确定两个词条之间的相关性。
对比文件2公开了一种信息检索方法,并具体公开了以下技术特征(参见说明书第14页):P(Wi,Wj)是词Wi与Wj的共现概率,即Wi与Wj在某一特定范围内(如相邻位置、句子或篇章)的条件概率,对于某个词Wi,如果P(Wi,Wj)大于等于阈值,则把Wj添加到Wi的扩展词表中。即对比文件2公开了在给定文档中统计词Wi与Wj在文档中的出现位置,如果两个词条在文档中的位置关系满足预设条件,则将Wj作为推荐词,因此对比文件2公开了上述区别特征,并且其在对比文件2中所起的作用同其在权利要求3中所起的作用相同都是通过两个词条的位置关系确定相关性。因此对比文件2给本领域技术人员提供了技术启示,即在确定词条的关联度时,根据两个词条的位置关系来确定关联度的大小。因此,当权利要求1不具备创造性时,其从属权利要求3也不具备专利法第22条第3款规定的创造性。
4、权利要求4不具备专利法第22条第3款规定的创造性。
权利要求4对权利要求1作了进一步限定。其附加技术特征已被对比文件1公开(参见说明书第66-68段):选择与Wi的相关度阈值大于Th的词语放置于集群中。即对比文件1公开了在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词条构成推荐结果。因此,当权利要求1不具备创造性时,其从属权利要求4也不具备专利法第22条第3款规定的创造性。
5、权利要求5不具备专利法第22条第3款规定的创造性。
权利要求5对权利要求1作了进一步限定。对比文件1公开了亲和度图150(参见附图6)包括节点154和链路158,节点154表示词语,节点154之间的有向边的权重表示由节点所表示的词语之间的亲和度,通过链路分析,选取高于亲和度阈值的词语。在对比文件1给出的链路分析词语之间亲和度的基础之上,对于间接关联的词语,相应地计算等效路径关联度权重(即路径关联度乘积),从而选择权重较大的词条构成推荐结果,对于本领域技术人员来说是容易想到的,属于本领域的常用技术手段。因此,当权利要求1不具备创造性时,其从属权利要求5也不具备专利法第22条第3款规定的创造性。
6、权利要求6-10不具备专利法第22条第3款规定的创造性。
权利要求6-10是一组与方法权利要求1-5一一对应的产品权利要求。基于与权利要求1-5相同的理由和证据,权利要求6-10也不具备专利法第22条第3款规定的创造性。
(三)对复审请求人相关意见的评述
对于复审请求人陈述的上述意见,合议组认为:
(1)对比文件1公开了推荐词条以指定本体空间,本体空间为定义某一领域内的专业词汇以及它们之间的关系。因此对比文件1中的词条推荐是在一定的词条范围内的,而根据不同的应用环境,预置词条集合,是本领域的常用技术手段;在分析词条之间的关联度之前,将词条之间可能存在的已有关联度初始化,以免干扰当前的关联度分析是本领域常用的技术手段。
(2)复审请求人认为权利要求1的技术方案“只分析同时包括词语A以及词语B的文档,即可完成增加两个词语之间关联度的操作”,但根据权利要求1中限定的“根据属于所述词条集合中的词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度”,体现的是词条在文档中的共现关系和对应元素之间的关联度之间的正相关关系,即:词条在文档中存在共现关系,则增加对应元素之间的关联度,因此并不能得出只分析同时包括词语A以及词语B的文档的结论。对比文件1公开了在给定文档数量下的两个词语之间的亲和度的计算公式P(Wi&Wj)/ P(Wi Wj),该公式体现了既包括词语Wi又包括词语Wj的页面(即词条在文档中共现)的数量越高,则词语Wi和词语Wj之间的亲和度越高的特性。因此,对比文件1也公开了两个词语在页面的共现关系与亲和度之间的正相关关系,并且在增加新的文档时,随着词语Wi和词语Wj共现数量增加,则增加两个词语之间的亲和度(即关联度)对于本领域技术人员来说是显而易见的。
因此,合议组对于复审请求人的意见不予支持。
综上所述,合议组依法作出如下复审请求审查决定。
三、决定
维持国家知识产权局于2018年08月30日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。