一种提取新词的方法和系统-无效决定


发明创造名称:一种提取新词的方法和系统
外观设计名称:
决定号:15046
决定日:2010-06-21
委内编号:4W02897
优先权日:
申请(专利)号:200610103593.X
申请日:2006-07-25
复审请求人:
无效请求人:福州汇商信息系统开发有限公司
授权公告日:2008-07-23
审定公告日:
专利权人:北京搜狗科技发展有限公司
主审员:
合议组组长:杜宇
参审员:哈雅坤
国际分类号:G06F0017300000
外观设计分类号:
法律依据:专利法第33条,第26条第4款,第22条第2;3款
决定要点:在判断创造性的过程中,如果本专利与现有技术相比存在区别技术特征,并且该区别技术特征不属于公知常识,本专利保护的技术方案相对于现有技术具有突出的实质性特点和显著的进步,则本专利的技术方案具备创造性。
全文:
一、案由
本无效宣告请求涉及中华人民共和国国家知识产权局于2008年7月23日授权公告的200610103593.X号发明专利,其名称为“一种提取新词的方法和系统”,申请日为2006年7月25日,公开日为2007年2月14日,专利权人是北京搜狗科技发展有限公司。本专利授权公告的权利要求如下:
“1、一种提取新词的方法,其特征在于,包括以下步骤:
从互联网搜索引擎的查询日志获取查询关健词字符串;
确定符合预置规则的字符串;
对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;
如果所述符合预置规则的字符串在所述互联网页面数据库中的出现次数大于或者等于第一阀值,则将该字符串作为新词输出。
2、如权利要求1所述的提取新词的方法,其特征在于,通过以下步骤确定符合预置规则的字符串:
将所述获取的查询关健词字符串与原有词库中的词条记录进行比对;
去除在原有词库中已有记录的查询关键词字符串。
3、如权利要求1或2所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤包括:
去除在查询日志中出现次数小于或者等于第二阀值的查询关健词字符串。
4、如权利要求2所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤还包括:
去除字符串长度不在预置范围内的查询关键词字符串;
或者去除不符合构词法则的查询关健词字符串。
5、如权利要求1所述的提取新词的方法,其特征在于,在查询关键词字符串的获取步骤之前,还包括:
搜索引擎判断所述查询关健词字符串是否具有对应的用户点击行为;
如果有,则存储该查询关健词字符串至查询日志;如果没有,则丢弃该查询关健词字符串。
6、如权利要求1所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤包括:
去除所述获取的查询关键词字符串中的无效字符;
或者根据分隔符对所述获取的查询关键词字符串进行分割。
7、如权利要求1所述的提取新词的方法,其特征在于,还包括:根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
8、如权利要求7所述的提取新词的方法,其特征在于,还包括:
设置包含系统词库的输入法系统位于第一计算设备中,所述新词库或者新版的全词库位于第二计算设备中;
所述输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。
9、如权利要求7所述的提取新词的方法,其特征在于,还包括:
设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中;
设置所述新词库或者新版的全词库为输入法系统的系统词库,所述系统词库位于第二计算设备中;
所述输入法系统根据用户输入的信息,从位于第二计算设备中的系统词库获取相应信息,在第一计算设备显示相应字符。
10、如权利要求1所述的提取新词的方法,其特征在于,通过以下步骤获得预置的互联网页面数据库:
对互联网页面进行权重赋值;
将权重值大于或者等于第三阀值的互联网页面存储至互联网页面数据库。
11、一种提取新词的系统,其特征在于,包括:
接口单元,用于从互联网搜索引擎的查询日志获取查询关键词字符串;
过滤单元,用于确定符合预置规则的字符串;
互联网页面数据库,用于存储互联网页面信息;
统计单元,对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;
新词确定单元,判断所述符合预置规则的字符串在所述互联网页面数据库中的出现次数是否大于或者等于第一阀值;如果是,则将该字符串作为新词输出。
12、如权利要求11所述的提取新词的系统,其特征在于,所述过滤单元包括以下模块:
比对模块,用于将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;
原有词库过滤模块,用于去除在原有词库中已有记录的查询关健词字符串。
13、如权利要求n或12所述的提取新词的系统,其特征在于,所述过滤单元还包括:
频率过滤模块,用于去除在查询日志中出现次数小于或者等于第二阀值的查询关键词字符串。
14、如权利要求12所述的提取新词的系统,其特征在于,所述过滤单元还包括:
长度过滤模块,用于去除字符串长度大于或者等于第四阀值的查询关键词字符串;
或者构词法过滤模块,用于去除不符合构词法则的查询关键词字符串。
15、如权利要求11所述的提取新词的系统,其特征在于,所述过滤单元包括以下模块:
无效字符过滤模块,用于去除所述获取的查询关键词字符串中的无效字符;
或者分割模块,用于根据分隔符对所述获取的查询关健词字符串进行分割。
16、如权利要求11所述的提取新词的系统,其特征在于,还包括:
词库管理单元,用于根据得到的新词生成新词库或者将得到的新词添加至原有词库。
17、如权利要求16所述的提取新词的系统,其特征在于,所述词库管理单元位于第二计算设备中,该系统还包括:
输入法单元,位于第一计算设备中,其中设置有系统词库;所述输入法单元通过第一计算设备连接所述词库管理单元完成系统词库的更新。
18、如权利要求16所述的提取新词的系统,其特征在于,所述词库管理单元位于第二计算设备中,该系统还包括:
输入法接收模块,用于接收用户输入信息,位于第一计算设备中;
输入法显示模块,用于显示相应字符,位于第一计算设备中;
所述输入法接收模块、输入法显示模块和词库管理单元相连接,根据用户输入的信息,从词库管理单元获取相应信息,在第一计算设备显示相应字符。
19、如权利要求11所述的提取新词的系统,其特征在于,还包括:
互联网页面数据库生成单元,用于对互联网页面进行权重赋值;并将权重值大于或者等于第三阀值的互联网页面存储至互联网页面数据库。”
针对上述专利权,福州汇商信息系统开发有限公司(下称请求人)于2009年11月26日向国家知识产权局专利复审委员会提出无效宣告请求,认为:1、本专利权利要求1、3、5、10、11、13、14、19超出了原始申请的范围,不符合专利法第33条的规定;2、权利要求1、11的技术方案得不到说明书支持,不符合专利法第26条第4款的有关规定;3、权利要求1-3、5、11-13相对于对比文件1不具备新颖性,不符合专利法第22条第2款的规定;4、权利要求1-3、5、10-13相对于对比文件1和公知常识结合不具备创造性,不符合专利法第22条第3款的规定;5、权利要求4、6、7、14-16相对于对比文件1和对比文件3结合不具备创造性,不符合专利法第22条第3款的规定;权利要求14相对于对比文件1、2或者对比文件1、4结合不具备创造性;6、权利要求8、9、17-19相对于对比文件1和公知常识结合不具备创造性,不符合专利法第22条第3款的规定;7、权利要求1、11相对于对比文件5和对比文件6结合不具备创造性,不符合专利法第22条第3款的规定;8、权利要求2-10、12-19相对于对比文件5和对比文件6、7、8、9的结合不具备创造性,不符合专利法第22条第3款的规定。请求人同时提交了如下对比文件作为证据:
对比文件1:申请号为200310118454.0的中国发明专利申请公开说明书,公开日为2005年6月22日;
对比文件2:申请号为200410000651.7的中国发明专利申请公开说明书,公开日为2005年7月20日;
对比文件3:申请号为200510053170.7的中国发明专利申请公开说明书,公开日为2005年9月7日;
对比文件4: “面向Internet的中文新词语检测” ,刊登于《中文信息学报》2004年第18卷第6期:
对比文件5:申请号为200480012340.0的中国发明专利申请公开说明书,公开日为2006年6月7日;
对比文件6:日本专利特开2003-228571A号公开特许公报,公开日为2003年8月15日;
对比文件7:申请号为00132955.3的中国发明专利申请公开说明书,公开日为2002年6月19日;
对比文件8:申请号为00126471.0的中国发明专利申请公开说明书,公开日为2002年3月20日;
对比文件9:美国专利US2005/0251384A1号公开说明书,公开日为2005年11月10日。
经形式审查合格后,专利复审委员会依法受理了上述请求,于2010年1月5日向双方当事人发出了无效宣告请求受理通知书,并将无效宣告请求书及其附件清单中所列附件的副本转送给专利权人,要求其在指定的期限内答复。
专利复审委员会依法成立合议组对本无效请求案进行审理。
2009年12月25日,请求人提交了意见陈述书以及对比文件6和对比文件9的中文译文。
2010年2月3日,合议组向双方当事人发出了口头审理通知书,定于2010年3月23日对本案进行口头审理。同时将请求人2009年12月25日提交的意见陈述书以及中文译文转送给专利权人。
2010年2月11日,专利权人提交答复意见陈述,认为:(1)本专利权利要求的修改没有超出原始申请文件的范围,符合专利法第33条的规定;(2)本专利权利要求能够得到说明书支持,符合专利法第26条第4款的规定;(3)本专利权利要求相对于请求人所给对比文件具备新颖性和创造性,因此,本专利符合专利法第22条第2、3款的规定。
口头审理如期举行,双方当事人对对方出席人员的身份和资格没有异议,对合议组成员没有回避请求。双方当事人当庭确认如下事实:
请求人明确表示,放弃对比文件2、4-9和相应无效理由以及无效宣告请求书中所列第4项无效理由,即权利要求1-3、5、10-13相对于对比文件1和公知常识结合不具备创造性,不符合专利法第22条第3款规定的无效理由;
请求人明确表示其无效理由为:(1)、本专利权利要求1、3、5、10、11、13、14、19超出了原始申请的范围,不符合专利法第33条的规定;(2)、权利要求1、11的技术方案得不到说明书支持,不符合专利法第26条第4款的有关规定;(3)、权利要求1-3、5、11-13相对于对比文件1不具备新颖性,不符合专利法第22条第2款的规定;(4)、权利要求4、6、7、14-16相对于对比文件1和对比文件3结合不具备创造性,不符合专利法第22条第3款的规定;(5)、权利要求8、9、17-19相对于对比文件1和公知常识结合不具备创造性,不符合专利法第22条第3款的规定;
专利权人当庭表示对对比文件1、3的真实性没有异议;
专利权人当庭提交一份意见陈述书,与其2010年2月11日所提交意见陈述书内容完全一致,合议组当庭将该意见陈述书转交请求人;
合议组当庭告知请求人可以在口头审理结束后7日内提交仅针对上述意见陈述书内容的意见陈述。
请求人未在指定期限内提交意见陈述书。
至此,合议组认为本案事实已经调查清楚,现依法作出审查决定。
二、决定的理由
1、依据的文本
本决定所依据的文本为本专利授权公告的文本。
2、关于证据
对比文件1、3均为专利文献,专利权人对对比文件1、3的真实性无异议,而且,对比文件1、3的公开日均在本专利的申请日之前,因此对比文件1、3可作为本专利的现有技术,合议组将引用对比文件1、3对本专利权利要求的新颖性创造性进行评述。
3、关于本专利权利要求是否超范围
专利法第33条规定,申请人可以对其专利申请文件进行修改,但是,对发明和实用新型专利申请文件的修改不得超出原说明书和权利要求书记载的范围,对外观设计专利申请文件的修改不得超出原图片或者照片表示的范围。
请求人认为,专利权人将权利要求1、3、5、10、11、13、14、19中的“预置阀值”修改为“第一阀值”、“第二阀值”、“第三阀值”、“第四阀值”,这种修改无法从原始说明书以及权利要求书毫无疑义的得出,因此超出了原说明书以及权利要求书记载的范围。
对此,合议组认为,所述“第一阀值”、“第二阀值”、“第三阀值”、“第四阀值”从原始说明书以及权利要求书可以分别理解为如下含义:(1)符合预置规则的字符串的出现次数阀值;(2)查询日志中出现次数小于或者等于的阀值;(3)互联网页面的权重大于或者等于的阀值;(4)字符串长度大于或者等于的阀值;上述阀值是在不同步骤中代表不同的含义。可见,上述修改内容是根据原说明书和权利要求书文字记载的内容和根据说明书附图能够直接地、毫无疑义地确定的内容,因此并未超出原说明书以及权利要求书记载的范围,符合专利法第33条规定。
4、关于本专利权利要求是否得到说明书支持
专利法第26条第4款规定,权利要求书应当以说明书为依据,说明要求专利保护的范围。
请求人认为,权利要求1、11中记载了“确定符合预置规则的字符串”,该特征中的“预置规则”包含了任意的预置规则,而本专利说明书中只给出了“去除原有词库中已有记录的查询关键词字符串、去除在查询日志中出现次数小于阀值的查询关键词字符串、去除字符串长度不在预置范围内的查询关键词字符串、去除无效字符”等有限个预置规则,因此权利要求1、11中的相关特征的概括得不到说明书的支持。
对此合议组认为,本专利说明书中记载了若干种预置规则的例子,但是这种列举是无法穷尽的,目前所列已经达到一定数量,可以进行上位概括。并且,权利要求1、11中该概括的技术特征“确定符合预置规则的字符串”并未包含推测内容,其效果可以预先确定和评价,均是用于去除不符合某规则的字符串,而留下符合条件的字符串,对于本领域技术人员来说,这种概括并未包含不能解决本发明专利所要解决技术问题的方式,因此这种概括是可以得到说明书支持的,符合专利法第26条第4款的规定。
5、关于本专利是否具备新颖性和创造性
专利法第22条第2款规定,新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。
专利法第22条第3款规定,创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步。
请求人认为,权利要求1-3、5、11-13相对于对比文件1不具备新颖性,不符合专利法第22条第2款的规定;权利要求4、6、7、14-16相对于对比文件1和对比文件3结合不具备创造性,不符合专利法第22条第3款的规定;权利要求8、9、17-19相对于对比文件1和公知常识结合不具备创造性,不符合专利法第22条第3款的规定。
合议组意见如下:
(1)关于权利要求1
对比文件1公开了一种学习中文新词的方法和装置,对通过输入模块输入的搜索引擎日志用分词处理模块进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查询词,则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词,若包含的汉字个数大于4,则从首字开始,每次取4个字,逐次加一字,直至取完该查询词的最后一个字,然后按上述4字查询词分词方法进行分词;过滤模块对组合提取模块组合后的新词按出现的频率排序,设置新阙值,将低于新阙值的新词删除后将剩余的新词通过输出模块输出。
本专利权利要求1请求保护一种提取新词的方法,其包括如下步骤:㈠从互联网搜索引擎的查询日志获取查询关健词字符串;㈡确定符合预置规则的字符串;㈢对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;㈣如果所述符合预置规则的字符串在所述互联网页面数据库中的出现次数大于或者等于第一阀值,则将该字符串作为新词输出。基于上述对对比文件公开内容的分析可知,权利要求1的技术方案与对比文件1的区别在于:①本专利权利要求1的技术方案中的㈠步骤是从查询日志中查询字符串,而对比文件1是通过输入模块输入;②本专利权利要求1的技术方案中的㈢步骤是统计符合所述规则的字符串在预置的互联网页面数据库中出现的次数,而对比文件1是查询词在搜索引擎日志中出现的频率;③本专利权利要求1的技术方案中的㈣步骤是将在所述互联网页面数据库中的出现次数大于或者等于第一阀值的字符串作为新词输出,而对比文件1是将出现频率低于阈值的新词删除,高于阈值的输出。
因此,本专利权利要求1的技术方案与对比文件1公开的技术方案实质上不同,相对于对比文件1而言,本专利权利要求1具备新颖性,符合专利法第22条第2款的规定。
对比文件3公开了一种用于收集新词、添加到粘着性语言所用的词库的方法和系统。在本方法中,获得提交到搜索引擎的问询日志,把该问询日志进行分类以获得分类问询。然后使用多重探试性标准将分类问询进行过滤,以获得新词的候选目录,而后把新词候选目录上的单词添加到词库。
可见,对比文件3也未公开上述区别技术特征①-③,同时上述区别技术特征也不属于本领域的公知常识,由于上述区别技术特征,使得权利要求1的技术方案解决了现有技术中分析新词的工作量大并获取新词的速度效率以及准确性较低的技术问题,并获得了相应的有益效果,因此,权利要求1相对于上述对比文件1、3的结合,或者上述对比文件1与公知常识的结合具有突出的实质性特点和显著进步,具备创造性,符合专利法第22条第3款的规定。
(2)关于权利要求2-10
权利要求2-10直接或者间接引用权利要求1,也请求保护一种提取新词的方法,在其引用的权利要求1具备新颖性或者创造性的前提下,权利要求2-10相对于对比文件1具备新颖性,相对于对比文件1、3的结合,或者对比文件1与公知常识的结合具备创造性,因此符合专利法第22条第2、3款规定。
(3)关于权利要求11
本专利权利要求11请求保护一种提取新词的系统,其包括如下部分:㈠接口单元,用于从互联网搜索引擎的查询日志获取查询关键词字符串;㈡过滤单元,用于确定符合预置规则的字符串;㈢互联网页面数据库,用于存储互联网页面信息;㈣统计单元,对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;㈤新词确定单元,判断所述符合预置规则的字符串在所述互联网页面数据库中的出现次数是否大于或者等于第一阀值;如果是,则将该字符串作为新词输出。基于上述对对比文件1公开内容的分析可知,权利要求11的技术方案与对比文件1的区别在于:①本专利权利要求11的技术方案包括一个互联网页面数据库,而对比文件1没有公开相应特征;②本专利权利要求11的技术方案中的统计单元用于统计符合所述规则的字符串在预置的互联网页面数据库中出现的次数,而对比文件1所统计的是查询词在搜索引擎日志中出现的频率;③本专利权利要求11的技术方案中的新词确定单元用于将在所述互联网页面数据库中的出现次数大于或者等于第一阀值的字符串作为新词输出,而对比文件1是将出现频率低于阈值的新词删除,高于阈值的输出。
因此,本专利权利要求11的技术方案与对比文件1公开的技术方案实质上不同,相对于对比文件1而言,本专利权利要求11具备新颖性,符合专利法第22条第2款的规定。
对比文件3公开了一种用于收集新词、添加到粘着性语言所用的词库的方法和系统。在本方法中,获得提交到搜索引擎的问询日志,把该问询日志进行分类以获得分类问询。然后使用多重探试性标准将分类问询进行过滤,以获得新词的候选目录,而后把新词候选目录上的单词添加到词库。
可见,对比文件3也未公开上述区别技术特征①-③,同时上述区别技术特征也不属于本领域的公知常识,由于上述区别技术特征,使得权利要求11的技术方案解决了现有技术中分析新词的工作量大并获取新词的速度效率以及准确性较低的技术问题,并获得了相应的有益效果,因此,权利要求11相对于上述对比文件1、3的结合,或者上述对比文件1与公知常识的结合具有突出的实质性特点和显著进步,具备创造性,符合专利法第22条第3款的规定。
(4)关于权利要求12-19
权利要求12-19直接或者间接引用权利要求11,也请求保护一种提取新词的系统,在其引用的权利要求11具备新颖性或者创造性的前提下,权利要求12-19相对于对比文件1具备新颖性,相对于对比文件1、3的结合,或者对比文件1与公知常识的结合具备创造性,因此符合专利法第22条第2、3款规定。
综上所述,请求人所提出的无效理由均不能成立,合议组依法作出如下决定。
三、决定
维持200610103593.X号发明专利权有效。
当事人对本决定不服的,可以根据专利法第46条第2款的规定,自收到本决定之日起叁个月内向北京市第一中级人民法院起诉。根据该款的规定,一方当事人起诉后,另一方当事人应当作为第三人参加诉讼。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: