
发明创造名称:一种基于语音识别的显示方法、装置、显示系统和空调
外观设计名称:
决定号:182100
决定日:2019-06-24
委内编号:1F267134
优先权日:
申请(专利)号:201510993344.1
申请日:2015-12-23
复审请求人:珠海格力电器股份有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:余莹洁
合议组组长:张亚玲
参审员:张静
国际分类号:G10L15/22,G10L15/26,G10L15/34
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求请求保护的技术方案与作为最接近现有技术的对比文件所公开的技术内容相比,存在区别技术特征,而该区别技术特征属于本领域的常规技术手段,则该项权利要求请求保护的技术方案相对于该对比文件不具备创造性。
全文:
本复审请求涉及申请号为201510993344.1、名称为“一种基于语音识别的显示方法、装置、显示系统和空调 ”的发明专利申请(下称本申请),本申请的申请日为2015年12月23日,公开日为2016年06月15日,申请人为珠海格力电器股份有限公司。
经实质审查,国家知识产权局原审查部门于2018年10月12日以本申请的权利要求第1-40项不符合专利法第22条第3款的规定为由作出驳回决定。驳回决定引用如下对比文件:
对比文件1:CN105009203A,公开日期为2015年10月28日;
对比文件2:CN203336703U,公开日期为2013年12月11日。
驳回决定所依据的文本为:申请人于2018年09月03日提交的权利要求第1-40项,于申请日2015年12月23日提交的说明书第[0001]-[0137]段、说明书附图图1-6、说明书摘要和摘要附图。
驳回决定所针对的权利要求如下:
“1. 一种基于语音识别的显示方法,其特征在于,包括:
对预设环境范围内输入的声音信息进行语音识别处理,在确定当前声音信息是语音信息时,激活语音命令输入模式;
提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,以得到所述语音输入命令的完成结果;其中,提取当前语音信息携带的语音输入命令,包括:按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令;以及
基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:
完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,
当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。
2. 根据权利要求1所述的方法,其特征在于,对预设环境范围内输入的声音信息进行语音识别处理,以在确定当前声音信息是语音信息时,激活语音命令输入模式,包括:
实时检测预设环境范围内输入的声音信息,并在有声音信息输入时,根据预存的语音包对所述声音信息进行甄别处理,以确定当前声音信息是否为语音信息;
当所述声音信息是语音信息时,对所述语音信息依次进行过滤和相似化分析处理,以得到所述相似化分析处理结果;
当所述相似化分析处理结果满足预设的语音命令激活条件时,激活语音命令输入模式。
3. 根据权利要求1或2所述的方法,其特征在于,提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,包括:
基于预设的命令类型与提取得到的所述语音输入命令进行对比以确定提取得到的所述语音输入命令的命令类型;
基于确定的所述命令类型,对所述语音输入命令进行下发处理,以完成当前语音信息的所述语音输入命令。
4. 根据权利要求3所述的方法,其特征在于,基于确定的所述命令类型,对所述语音输入命令进行下发处理,以完成当前语音信息的所述语音输入命令,包括:
当确定所述语音输入命令是查询命令时,在预设时长内进行自动查询后,直接以语言形式播放当前语音信息所需查询的信息,完成当前查询命令。
5. 根据权利要求4所述的方法,其特征在于,
所述当前语音信息所需查询的信息,包括:与所述查询命令对应的预存信息和/或更新信息;
和/或,
在预设时长内进行自动查询,包括:
将当前语音信息包含的多个查询条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的查询处理后,按预设的查询命令结束规则,结束当前查询命令。
6. 根据权利要求3所述的方法,其特征在于,基于确定的所述命令类型,对所述语音输入命令进行下发处理,以完成当前语音信息的所述语音输入命令,还包括:
当确定所述语音输入命令是设置命令时,直接以语音形式提示当前语音信息所需设置信息的当前值、并以语言形式询问是否需要重新设定该设置信息为当前语音信息的期望值;之后,
根据用户在预设时长内的语音反馈信息,在预设时长内进行自动设置,完成当前设置命令;
如果用户在预设时长内没有基于所述询问的语音反馈信息,则默认所述提示的当前值为期望值,完成当前设置命令。
7. 根据权利要求4或5所述的方法,其特征在于,基于确定的所述命令类型,对所述语音输入命令进行下发处理,以完成当前语音信息的所述语音输入命令,还包括:
当确定所述语音输入命令是设置命令时,直接以语音形式提示当前语音信息所需设置信息的当前值、并以语言形式询问是否需要重新设定该设置信息为当前语音信息的期望值;之后,
根据用户在预设时长内的语音反馈信息,在预设时长内进行自动设置,完成当前设置命令;
如果用户在预设时长内没有基于所述询问的语音反馈信息,则默认所述提示的当前值为期望值,完成当前设置命令。
8. 根据权利要求6所述的方法,其特征在于,在预设时长内进行自动设置,包括:
将当前语音信息包含的多个设置条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的设置处理后,按预设的设置命令结束规则,结束当前设置命令。
9. 根据权利要求7所述的方法,其特征在于,在预设时长内进行自动设置,包括:
将当前语音信息包含的多个设置条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的设置处理后,按预设的设置命令结束规则,结束当前设置命令。
10. 根据权利要求2、4-6、8、9之一所述的方法,其特征在于,该方法还包括:
通过本地学习和/或云计算和/或程序升级的方式,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,以得到所述语音包和/或语音命令包和/或预存信息的扩展结果。
11. 根据权利要求3所述的方法,其特征在于,该方法还包括:
通过本地学习和/或云计算和/或程序升级的方式,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,以得到所述语音包和/或语音命令包和/或预存信息的扩展结果。
12. 根据权利要求7所述的方法,其特征在于,该方法还包括:
通过本地学习和/或云计算和/或程序升级的方式,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,以得到所述语音包和/或语音命令包和/或预存信息的扩展结果。
13. 根据权利要求10所述的方法,其特征在于,通过本地学习和/或云计算和/或程序升级的方式,预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,包括:
收集至少包含地方语言、常用用语及使用习惯的本地收集信息,对所述本地收集信息进行分析后,基于分析结果自动匹配用户、和/或删减预存的所述语音命令包中预设时长内未使用的数据,以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
通过云计算将所述本地收集信息发送至服务器,通过服务器进行二次分析,对二次分析结果确认后,自动下载基于二次分析结果的用户使用数据;和/或,通过云计算增加最新的用户数据,该用户数据来自于网络收集信息、以及对网络收集信息的分析结果;以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
通过差分升级和/或正常升级的程序升级,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级。
14. 根据权利要求11-12之一所述的方法,其特征在于,通过本地学习和/或云计算和/或程序升级的方式,预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,包括:
收集至少包含地方语言、常用用语及使用习惯的本地收集信息,对所述本地收集信息进行分析后,基于分析结果自动匹配用户、和/或删减预存的所述语音命令包中预设时长内未使用的数据,以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
通过云计算将所述本地收集信息发送至服务器,通过服务器进行二次分析,对二次分析结果确认后,自动下载基于二次分析结果的用户使用数据;和/或,通过云计算增加最新的用户数据,该用户数据来自于网络收集信息、以及对网络收集信息的分析结果;以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
通过差分升级和/或正常升级的程序升级,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级。
15. 根据权利要求1、2、4-6、8、9、11-13之一所述的方法,其特征在于,该方法还包括:
在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
16. 根据权利要求3所述的方法,其特征在于,该方法还包括:
在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
17. 根据权利要求7所述的方法,其特征在于,该方法还包括:
在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
18. 根据权利要求10所述的方法,其特征在于,该方法还包括:
在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
19. 根据权利要求14所述的方法,其特征在于,该方法还包括:
在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
20. 一种基于语音识别的显示装置,其特征在于,包括:
语音识别单元,用于对预设环境范围内输入的声音信息进行语音识别处理,在确定当前声音信息是语音信息时,激活语音命令输入模式;
命令下发单元,提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,以得到所述语音输入命令的完成结果;其中,命令下发单元,包括:提取当前语音信息携带的语音输入命令,包括:类型确定模块,用于按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令;以及
模式退出单元,用于基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:
继续处理模块,用于完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,
延时退出模块,用于当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。
21. 根据权利要求20所述的装置,其特征在于,语音识别单元,包括:
声音甄别模块,用于实时检测预设环境范围内输入的声音信息,并在有声音信息输入时,根据预存的语音包对所述声音信息进行甄别处理,以确定当前声音信息是否为语音信息;
语音预处理模块,用于当所述声音信息是语音信息时,对所述语音信息依次进行过滤和相似化分析处理,以得到所述相似化分析处理结果;
模式激活模块,用于当所述相似化分析处理结果满足预设的语音命令激活条件时,激活语音命令输入模式。
22. 根据权利要求20或22所述的装置,其特征在于,命令下发单元,还包括:
类型确定模块,用于基于预设的命令类型与提取得到的所述语音输入命令进行对比以确定提取得到的所述语音输入命令的命令类型;
命令完成模块,用于基于确定的所述命令类型,对所述语音输入命令进行下发处理,以完成当前语音信息的所述语音输入命令。
23. 根据权利要求22所述的装置,其特征在于,命令完成模块,包括:
查询命令完成子模块,用于当确定所述语音输入命令是查询命令时,在预设时长内进行自动查询后,直接以语言形式播放当前语音信息所需查询的信息,完成当前查询命令。
24. 根据权利要求23所述的装置,其特征在于,
所述当前语音信息所需查询的信息,包括:与所述查询命令对应的预存信息和/或更新信息;
和/或,
查询命令完成子模块,包括:
自动查询子模块,用于将当前语音信息包含的多个查询条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的查询处理后,按预设的查询命令结束规则,结束当前查询命令。
25. 根据权利要求22所述的装置,其特征在于,命令完成模块,还包括:
设置命令完成子模块,用于当确定所述语音输入命令是设置命令时,直接以语音形式提示当前语音信息所需设置信息的当前值、并以语言形式询问是否需要重新设定该设置信息为当前语音信息的期望值;之后,
根据用户在预设时长内的语音反馈信息,在预设时长内进行自动设置,完成当前设置命令;
如果用户在预设时长内没有基于所述询问的语音反馈信息,则默认所述提示的当前值为期望值,完成当前设置命令。
26. 根据权利要求23或24所述的装置,其特征在于,命令完成模块,还包括:
设置命令完成子模块,用于当确定所述语音输入命令是设置命令时,直接以语音形式提示当前语音信息所需设置信息的当前值、并以语言形式询问是否需要重新设定该设置信息为当前语音信息的期望值;之后,
根据用户在预设时长内的语音反馈信息,在预设时长内进行自动设置,完成当前设置命令;
如果用户在预设时长内没有基于所述询问的语音反馈信息,则默认所述提示的当前值为期望值,完成当前设置命令。
27. 根据权利要求25所述的装置,其特征在于,设置命令完成子模块,包括:
自动设置子模块,用于将当前语音信息包含的多个设置条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的设置处理后,按预设的设置命令结束规则,结束当前设置命令。
28. 根据权利要求26所述的装置,其特征在于,设置命令完成子模块,包括:
自动设置子模块,用于将当前语音信息包含的多个设置条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的设置处理后,按预设的设置命令结束规则,结束当前设置命令。
29. 根据权利要求21、23-25、27、28之一所述的装置,其特征在于,该系统还包括:
功能扩展单元,用于通过本地学习和/或云计算和/或程序升级的方式,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,以得到所述语音包和/或语音命令包和/或预存信息的扩展结果。
30. 根据权利要求22所述的装置,其特征在于,该系统还包括:
功能扩展单元,用于通过本地学习和/或云计算和/或程序升级的方式,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,以得到所述语音包和/或语音命令包和/或预存信息的扩展结果。
31. 根据权利要求26所述的装置,其特征在于,该系统还包括:
功能扩展单元,用于通过本地学习和/或云计算和/或程序升级的方式,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级和/或更新处理,以得到所述语音包和/或语音命令包和/或预存信息的扩展结果。
32. 根据权利要求29所述的装置,其特征在于,功能扩展单元,包括:
本地学习模块,用于收集至少包含地方语言、常用用语及使用习惯的本地收集信息,对所述本地收集信息进行分析后,基于分析结果自动匹配用户、和/或删减预存的所述语音命令包中预设时长内未使用的数据,以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
云计算模块,用于通过云计算将所述本地收集信息发送至服务器,通过服务器进行二次分析,对二次分析结果确认后,自动下载基于二次分析结果的用户使用数据;和/或,通过云计算增加最新的用户数据,该用户数据来自于网络收集信息、以及对网络收集信息的分析结果;以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
程序升级模块,用于通过差分升级和/或正常升级的程序升级,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级。
33. 根据权利要求30-31之一所述的装置,其特征在于,功能扩展单元,包括:
本地学习模块,用于收集至少包含地方语言、常用用语及使用习惯的本地收集信息,对所述本地收集信息进行分析后,基于分析结果自动匹配用户、和/或删减预存的所述语音命令包中预设时长内未使用的数据,以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
云计算模块,用于通过云计算将所述本地收集信息发送至服务器,通过服务器进行二次分析,对二次分析结果确认后,自动下载基于二次分析结果的用户使用数据;和/或,通过云计算增加最新的用户数据,该用户数据来自于网络收集信息、以及对网络收集信息的分析结果;以实现对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息的更新处理;和/或,
程序升级模块,用于通过差分升级和/或正常升级的程序升级,对预存的所述语音包和/或预存的所述语音命令包和/或与相应语音命令对应的预存信息进行在线升级。
34. 根据权利要求20、21、23-25、27、28、30-32之一所述的装置,其特征在于,该装置还包括:
功能显示单元,用于在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
35. 根据权利要求22所述的装置,其特征在于,该装置还包括:
功能显示单元,用于在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
36. 根据权利要求26所述的装置,其特征在于,该装置还包括:
功能显示单元,用于在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
37. 根据权利要求29所述的装置,其特征在于,该装置还包括:
功能显示单元,用于在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
38. 根据权利要求33所述的装置,其特征在于,该装置还包括:
功能显示单元,用于在所述激活的所述语音命令输入模式下,和/或,基于所述下发处理得到的所述完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能。
39. 一种显示系统,其特征在于,包括如权利要求20-38任一所述的装置。
40. 一种空调,其特征在于,具有如权利要求39所述的显示系统。”
驳回决定主要认为:(1)独立权利要求1与对比文件1相比,区别在于:基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,即当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。然而该区别是本领域的常规技术手段,因此权利要求1不具备创造性。(2)从属权利要求2-19的附加技术特征或被对比文件1、2公开、或为本领域的常规技术手段,因此也均不具备创造性。(3)独立权利要求20与对比文件1相比,区别在于:模式退出单元,用于基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,延时退出模块,用于当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。然而该区别是本领域的常规技术手段,因此权利要求20不具备创造性。(4)从属权利要求21-38要求保护的是与权利要求2-19要求保护的方法权利要求一一对应的装置权利要求,基于与权利要求2-19类似的理由,权利要求21-38均不具备创造性。(5)独立权利要求39请求保护一种包括如权利要求20-38任一所述的装置的显示系统,由于权利要求20-38所述的装置不具备创造性,因此权利要求39也不具备创造性。(6)权利要求40请求保护如权利要求39所述的显示系统的空调,由于权利要求39不具备创造性,因此权利要求40也不具备创造性。
申请人珠海格力电器股份有限公司(下称复审请求人)对上述驳回决定不服,于2018年11月26日向国家知识产权局提出了复审请求,在驳回决定所依据的权利要求书的基础上进行了修改,同时提交了权利要求书的全文修改替换页,其中在独立权利要求1、20中增加特征“所述预设环境范围,包括:显示板所在环境空间;通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息”。修改后的权利要求第1、20项内容如下:
“1. 一种基于语音识别的显示方法,其特征在于,包括:
对预设环境范围内输入的声音信息进行语音识别处理,在确定当前声音信息是语音信息时,激活语音命令输入模式;所述预设环境范围,包括:显示板所在环境空间;通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息;
提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,以得到所述语音输入命令的完成结果;其中,提取当前语音信息携带的语音输入命令,包括:按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令;以及
基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:
完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,
当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。”
“20.一种基于语音识别的显示装置,其特征在于,包括:
语音识别单元,用于对预设环境范围内输入的声音信息进行语音识别处理,在确定当前声音信息是语音信息时,激活语音命令输入模式;所述预设环境范围,包括:显示板所在环境空间;通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息;
命令下发单元,提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,以得到所述语音输入命令的完成结果;其中,命令下发单元,包括:提取当前语音信息携带的语音输入命令,包括:类型确定模块,用于按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令;以及
模式退出单元,用于基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:
继续处理模块,用于完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,
延时退出模块,用于当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。”
复审请求人认为:(1)本申请权利要求1针对用户与显示板之间的信息交互都需要依赖显示板,当用户不方便直接操作显示板时就不能使用相应功能的问题,通过声音信息实时监测进行语音命令输入模式的控制及相应语音命令的下发处理,更准确地处理语音命令,提升交互灵活性,减小交互难度,而对比文件1解决的是语音应答系统需要唤醒动作的操作影响用户体验的问题,二者解决的技术问题并不相同,预期效果也不同。(2)本申请采用的技术手段与对比文件1“利用分层级的方法来监视和处理声学输入,首先对接收到的声学信息应用相对低功率处理,并且根据应用需要使用较高功率的处理来评估声学信息包括语音命令的可能性”明显不同,具体而言,本申请是只对“预设环境范围内输入的声音信息进行语音识别处理”,其中,所述预设环境范围,包括:显示板所在环境空间;并“在确定当前声音信息是语音信息时,激活语音命令输入模式”后,再“按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令”,还有,在“基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式”,并且,通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息。
经形式审查合格,国家知识产权局依法受理了该复审请求,于2018年12月05日向复审请求人发出复审请求受理通知书,并将本案转送至原审查部门进行前置审查。
经前置审查,原审查部门坚持原驳回决定。
随后,国家知识产权局依法成立合议组对本案进行审理。本案合议组以驳回决定所针对的文本为基础进行审查,并于2019年05月10日向复审请求人发出复审通知书。复审通知书中指出:(1)权利要求1与对比文件1的区别技术特征为:基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:完成当前的所述语音输入命令后,与语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理,以及当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。然而该区别是本领域的常规技术手段,因此权利要求1不具备创造性。(2)从属权利要求2-19的附加技术特征或被对比文件1-2公开、或为本领域的常规技术手段,因此也均不具备创造性。(3)独立权利要求20请求保护一种基于语音识别的显示装置,该显示装置中各模块单元所实现的功能或所起的作用与权利要求1的显示方法所限定的方法步骤相对应,基于评述权利要求1的相同理由,权利要求20也不具备创造性。(4)权利要求21-38的附加技术特征与权利要求2-19的附加技术特征相对应,基于评述权利要求2-19的相同理由,权利要求21-38也不具备创造性。(5)权利要求39请求保护一种显示系统,其包括如权利要求20-38任一所述的装置,由于权利要求20-38任一所述的装置不具备创造性,因此权利要求39也不具备创造性。(6)权利要求40请求保护一种空调,其具有如权利要求39所述的显示系统,权利要求39所述的显示系统不具备创造性,而将权利要求39所述的显示系统具体应用于空调场景是本领域技术人员为了增强用户使用空调时的交互体验易于想到的,因此权利要求40也不具备创造性。
针对上述复审通知书,复审请求人于2019年05月28日提交了意见陈述书,在2019年11月26日提出复审请求时所提交的权利要求书的基础上进行了修改,同时提交了权利要求书的全文修改替换页,在复审通知书针对的文本的基础上,在独立权利要求1、20中增加特征“通过在已激活的语音命令输入模式下,自输入的当前语音信息中提取语音命令并执行该语音命令,完成用户的语音显示要求”。修改后的权利要求第1、20项内容如下:
“1. 一种基于语音识别的显示方法,其特征在于,包括:
对预设环境范围内输入的声音信息进行语音识别处理,在确定当前声音信息是语音信息时,激活语音命令输入模式;所述预设环境范围,包括:显示板所在环境空间;通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息;
提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,以得到所述语音输入命令的完成结果;其中,提取当前语音信息携带的语音输入命令,包括:按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令;通过在已激活的语音命令输入模式下,自输入的当前语音信息中提取语音命令并执行该语音命令,完成用户的语音显示要求;以及
基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:
完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,
当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。”
“20. 一种基于语音识别的显示装置,其特征在于,包括:
语音识别单元,用于对预设环境范围内输入的声音信息进行语音识别处理,在确定当前声音信息是语音信息时,激活语音命令输入模式;所述预设环境范围,包括:显示板所在环境空间;通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息;
命令下发单元,提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,以得到所述语音输入命令的完成结果;其中,命令下发单元,包括:提取当前语音信息携带的语音输入命令,包括:类型确定模块,用于按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令;通过在已激活的语音命令输入模式下,自输入的当前语音信息中提取语音命令并执行该语音命令,完成用户的语音显示要求;以及
模式退出单元,用于基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:
继续处理模块,用于完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,
延时退出模块,用于当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。”
复审请求人认为:(1)本申请权利要求1针对用户与显示板之间的信息交互都需要依赖显示板,当用户不方便直接操作显示板时就不能使用相应功能的问题,通过声音信息实时监测进行语音命令输入模式的控制及相应语音命令的下发处理,更准确地处理语音命令,提升交互灵活性,减小交互难度,而对比文件1解决的是语音应答系统需要唤醒动作的操作影响用户体验的问题,二者解决的技术问题并不相同,预期效果也不同。(2)本申请采用的技术手段与对比文件1“利用分层级的方法来监视和处理声学输入,首先对接收到的声学信息应用相对低功率处理,并且根据应用需要使用较高功率的处理来评估声学信息包括语音命令的可能性”明显不同,具体而言,本申请是只对“预设环境范围内输入的声音信息进行语音识别处理”,其中,所述预设环境范围,包括:显示板所在环境空间;并“在确定当前声音信息是语音信息时,激活语音命令输入模式”后,再“按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令,通过在已激活的语音命令输入模式下,自输入的当前语音信息中提取语音命令并执行该语音命令,完成用户的语音显示要求”,还有,在“基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式”,并且,通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息。(3)区别特征“完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式”不是本领域技术人员容易想到的,且现有技术中不存在相应的技术需求或技术启示。因此本申请权利要求1-40具备创造性。
在上述程序的基础上,合议组认为本案事实已经清楚,现依法作出审查决定。
二、决定的理由
(一)审查文本的认定
在复审审查阶段,复审请求人于2018年11月26日和2019年05月28日提交了权利要求书的全文修改替换页,经合议组审查,其中所作的修改符合专利法第33条和专利法实施细则第61条的规定。因此,本决定是以复审请求人于2019年05月28日提交的权利要求第1-40项,于申请日2015年12月23日提交的说明书第[0001]-[0137]段、说明书附图图1-6、说明书摘要和摘要附图为基础作出的。
(二)关于专利法第22条第3款的问题
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果一项权利要求请求保护的技术方案与作为最接近现有技术的对比文件所公开的技术内容相比,存在区别技术特征,而该区别技术特征属于本领域的常规技术手段,则该项权利要求请求保护的技术方案相对于该对比文件具备创造性。
具体在本案中:
1、权利要求1请求保护一种基于语音识别的显示方法,对比文件1公开了一种用于检测语音命令的方法,用于在无需接收来自用户的显示触发的情况下检测声学输入是否包括来自用户的语音命令、及发起对检测到的语音命令的响应(参见说明书第[0005]段),与本申请属于相同的语音信号处理技术领域,具体公开了如下内容:
移动设备100是实现语音激活技术的示例性移动设备,其包括能够接收声学输入的输入部、用于向用户可视地呈现信息的显示器(参见说明书第[0041]、[0044]段)。
在动作210,来自移动设备的环境的声学输入被移动设备接收;在动作220,声学输入被处理以确定声学输入是否包括语音命令;根据一些实施例,可以使用多阶段处理方法来偏离假阳性和假阴性率的平衡,同时最小化(到合理的程度)在确定声学输入是对应于乱真声活动还是包括语音命令时所消耗的电量;根据一些实施例,动作220可以包括执行一个或多个语音活动检测(VAD)处理阶段,该阶段评估声学输入是否具有语音/讲话的特性或者声学输入是否更可能是环境中非语音声学活动的结果,执行一个或多个VAD处理阶段的结果可以包括评定声学输入包括语音内容的可能性,该评定可以用来确定声学输入是否可以作为乱真声活动被忽略,或者声学输入是否应该被进一步处理以确定声学输入的内容;根据实现多阶段方法的一些实施例,当执行动作220时,一般地,低功率处理阶段可以在接合一个或多个较高功率处理阶段之前执行,通过这样做,大量的声学输入可以作为对应于乱真声活动而被丢弃;在动作230,如果确定声学输入包括语音命令,则语音应答系统可以启动一个或多个处理来响应语音命令(参见说明书第[0047]、[0051]-[0053]段,图2);以这种方式,讲话处理阶段可以被保留用于被评定为包括语音内容的声学输入,从而通过在确定讲话内容之前首先检测讲话的存在来将电力节省到合理的程度(参见说明书第[0071]段)。
确定声学输入可能对应于乱真声活动的处理阶段可以终止声学输入的进一步处理,以避免消耗额外的电力,断定声学输入可能对应于语音命令的处理阶段可以启动进一步的处理来响应语音命令,当顺序地处理一个或多个阶段时,既不断定声学输入包括语音命令、也不断定声学输入对应于乱真声活动的处理阶段可以接合后续的处理阶段来继续声学输入的进一步评估(参见说明书第[0063]段),如果给定的VAD处理阶段以足够高的置信度断定声学输入包括语音内容,则进一步的VAD处理阶段可以被省略,有助于直接前进到一个或多个讲话处理阶段来评估讲话的内容(参见说明书第[0144]段)。
评估声学输入的内容可以包括但不限于自动讲话识别(ASR)(例如,确定在包含讲话的声学输入中存在哪些词)、分类(例如,将讲话归类)、语言理解(例如,确定讲话的语义内容)和/或讲话者验证(例如,确定讲话是否由特定的讲话者发出);有限词汇表ASR可以利用具有期望数量的关键词的受限的词汇表来执行,其中的关键词是当人们说出语音命令时频繁说出的单词。例如,诸如“什么”、“哪里”、“如何”等的术语会在说出语音查询时被频繁使用,诸如“搜索”、“安排”、“定位”、“呼叫”、“联系”、“提醒”等动词也可以是当说出语音命令时发出的常用单词,应当理解,任何被认为是暗示语音命令的单词都可以被包括在有限词汇表中,以便利相对快速、相对低功率的ASR以获得关于声学输入是否包括语音命令的信息;有限词汇表在这点上也可以基于用户的行为来构建、学习或修改,例如,由用户在过去的语音命令中说出的单词可以被加到有限词汇表中,根据一些实施例,在如此识别的语音命令中由用户说出的单词可以被存储并且每次给定的单词再次被用户说出时,可以递增对那个单词的使用计数,其中说出给定单词的时间也可被记录,使得可以确定使用的频率,以这种方式,可以获得当说出语音命令时用户说特定单词多少次和/或有多频繁的记录,当没有出现在有限词汇表中的单词达到某个阈值计数和/或被足够频繁地说出时(例如,在给定的时间间隔内说了足够多次),该单词可以被包括在有限词汇表中,如果确定当说出语音命令时用户没有经常地使用或根本没有使用包括在有限词汇表中的一个或多个单词,则这一个或多个单词可以被去除(参见说明书第[0084]-[0088]段)。
在断定语音命令存在之后,语音应答系统750可以执行NLP阶段730来评估声学输入的语义内容,以理解当用户说出语音命令时想要语音应答系统做什么,在图7B所示的例子中,NLP阶段730可以确定用户想查看他/她的日历,以检查明天安排了什么预约,因此,语音应答系统750可以检查以查看明天的日期并启动日历应用(参见过程740),并向日历应用传递任何合适的参数785,诸如明天的日期,使得日历可以显示用户感兴趣的那一天和/或在日历上列出安排在指示的日期的预约(参见说明书第[0148]段,图7B);NLP组件940也可以包括(或另选地包括)一个或多个基于规则的模型,它们提供关于如何将声学输入中的单词或短语映射到语音命令和/或对应的任务的一组规则并且/或者将声学输入中的单词或短语映射到识别的任务的参数,例如,NLP组件940可以包括基于规则的自然语言处理组件以提取关于在声学输入中识别的构成单词的相关事实、将事实链接到概念或以其它方式帮助评定语音命令是否存在和/或识别在声学输入中指定的一个或多个任务,在基于规则的系统中,语言学家和/或其它个人可以创建多个规则,该多个规则可以指定哪些单词或单词的组合证明识别的声学输入包括语音命令和/或指定特定的任务,一些规则可以是相当的具体,使得规则的触发以很高的概率指示由此表达的确定是准确的(例如,单词“呼叫”的检测结合识别正确的名称可以以很高的概率指示声学输入包括拨打电话的语音命令)(参见说明书第[0178]-[0180]段)。
复审请求人在提出复审请求时认为:
(1)本申请权利要求1针对用户与显示板之间的信息交互都需要依赖显示板,当用户不方便直接操作显示板时就不能使用相应功能的问题,通过声音信息实时监测进行语音命令输入模式的控制及相应语音命令的下发处理,更准确地处理语音命令,提升交互灵活性,减小交互难度,而对比文件1解决的是语音应答系统需要唤醒动作的操作影响用户体验的问题,二者解决的技术问题并不相同,预期效果也不同。
(2)本申请采用的技术手段与对比文件1“利用分层级的方法来监视和处理声学输入,首先对接收到的声学信息应用相对低功率处理,并且根据应用需要使用较高功率的处理来评估声学信息包括语音命令的可能性”明显不同,具体而言,本申请是只对“预设环境范围内输入的声音信息进行语音识别处理”,其中,所述预设环境范围,包括:显示板所在环境空间;并“在确定当前声音信息是语音信息时,激活语音命令输入模式”后,再“按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令,通过在已激活的语音命令输入模式下,自输入的当前语音信息中提取语音命令并执行该语音命令,完成用户的语音显示要求”,还有,在“基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:完成当前的所述语音输入命令后,以语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理;以及,当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式”,并且,通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息。
对此,合议组认为:
(1)对比文件1在背景技术部分记载了现有技术存在的问题:当移动设备在低功率模式下(例如,在睡眠、休眠或空闲模式下) 操作时,在语音应答系统可以利用手动动作或显式语音触发被接合之前用户首先需要唤醒移动设备本身,例如,用户可能必须按下按钮来打开显示器和/或启用一个或多个处理器,可能必须操纵一个或多个控制部来使移动设备准备好以供使用,和/或如果移动设备已经在某个时间段不活动那么可能必须输入密码(参见说明书第[0003]段),而对比文件1通过移动设备接收来自移动设备的环境的声学输入,在无需接收来自用户的显示触发的情况下检测声学输入是否包括来自用户的语音命令,及发起对检测到的语音命令的响应(参见说明书第[0005]段),用户与移动设备的交互可以得到改善(参见说明书第[0027]段)。可见,对比文件1针对的是在对移动设备进行控制时,需要通过手动动作或显示语音触发唤醒移动设备本身,其存在与本申请相同的技术问题,即在不方面使用手动动作操作移动设备时,就不能使用相应的功能,而对比文件1通过接收来自移动设备的环境的声学输入,并对该声学输入进行语音命令的检测,以完成用户与移动设备的语音应答系统的交互,提升了交互灵活性,减小了交互难度,因此对比文件1与本申请权利要求1解决的技术问题相同,能够达到相同的预期效果。至于复审请求人强调的“对比文件1解决的是语音应答系统需要唤醒动作的操作影响用户体验的问题”,对比文件1说明书第[0004]段记载了:唤醒动作会进一步妨碍语音应答系统的使用,妨碍的方式是在正常情况下会很不方便或者恼人并且在其它情况下会是禁止的(例如,当驾驶车辆时,或从事占用用户手的其它任务时),可见,对比文件1旨在避免上述因为用户不方便通过动作唤醒移动设备的情形,其所针对的技术问题仍然是用户不方便直接操作移动设备时就无法使用相应的功能。
(2)为了解决上述技术问题,本申请和对比文件1都采用了通过语音交互代替手动动作以实现对移动设备进行控制的技术手段,具体而言,对比文件1移动设备对采集的声学输入先后进行“语音命令是否存在”以及“评估声学输入的内容”的处理,在识别出相应语音命令后响应并执行该命令,例如日历显示用户感兴趣的那一天/或在日历上列出安排在指示的日期的预约,相当于本申请权利要求1的基于语音识别的显示方法,通过对语音输入的功能进行扩展和/或更新,在语音操作时通过显示板辅助显示相关参数信息或者提示信息。对比文件1的移动设备包括用于向用户可视地呈现信息的显示器,该显示器相当于权利要求1的显示板,传统的控制移动设备的方式是向该显示器进行手动操作,而对比文件1通过监视移动设备的声学环境,采集其环境的声学输入,对该声学输入进行处理,其相当于权利要求1的“对预设环境范围内输入的声音信息进行语音识别处理,所述预设环境范围包括:显示板所在环境空间”。在对比文件1“语音命令是否存在”的处理阶段,可以被保留用于被评定为包括语音内容的声学输入,从而在确定讲话内容之前首先检测讲话的存在,当判断出声学输入是乱真声活动时则停止进一步处理,当判断出声学输入包括语音内容时直接进入到讲话处理阶段,相当于权利要求1的“在确定当前声音信息是语音信息时,激活语音命令输入模式”。在对比文件1 “评估声学输入的内容”的处理阶段,利用有限词汇表ASR来评估声学输入的内容,该有限词汇表ASR存储有期望数量的关键词,任何被认为是暗示语音命令的单词都可以被包括在有限词汇表中,以便利相对快速、相对低功率的ASR以获得关于声学输入是否包括语音命令的信息,而本领域技术人员知晓,在抓取声学输入的关键词时必然要预设一个频率,因此对比文件1公开了“提取当前语音信息携带的语音输入命令,包括:按预设频率抓取当前语音信息的关键词,基于该关键词搜索预存的语音命令包以提取与当前语音信息对应的语音输入命令”,对比文件1在识别出相应语音命令后响应并执行该命令,例如日历显示用户感兴趣的那一天/或在日历上列出安排在指示的日期的预约,即对比文件1公开了“通过在已激活的语音命令输入模式下,自输入的当前语音信息中提取语音命令并执行该语音命令,完成用户的语音显示要求”。对比文件1的NLP组件940包括一个或多个基于规则的模型,它们提供关于如何将声学输入中的单词或短语映射到语音命令和/或对应的任务的一组规则并且/或者将声学输入中的单词或短语映射到识别的任务的参数,相当于权利要求1的“提取当前语音信息携带的语音输入命令,并按预设的命令类型对提取得到的所述语音输入命令进行下发处理,以得到所述语音命令的完成结果”。
因此,本申请权利要求1的技术方案与对比文件1相比,区别在于:基于所述下发处理得到的所述完成结果,退出所述语音命令输入模式,包括:完成当前的所述语音输入命令后,与语音形式询问用户是否需要执行其他命令,并基于用户在预设时长内语音形式的反馈,按该反馈语音的命令类型进行相应处理,以及当在预设时长内未收到用户基于所述询问的语音形式的反馈时,自动退出当前的语音命令输入模式。基于该区别,本申请实际解决的技术问题是如何增强用户体验。
对于上述区别,复审请求人认为其并非本领域技术人员容易想到的,且现有技术中不存在相应的技术需求或技术启示。
但是,合议组认为:在语音信号识别技术领域,在完成当前所识别的语音命令之后继续询问用户是否有执行其他命令的需求,并基于用户的语音反馈执行相应处理,是本领域技术人员通过人机交互方式提升用户体验的常规技术手段,无需付出创造性劳动。此外,在进行人机语音交互过程中,为了进一步节约电力,本领域技术人员通常会设置一个合理的响应时长,如果在该响应时长内一直未收到用户的语音反馈,即自动退出当前模式,其相应带来的技术效果能够合理预期。
综上,在对比文件1的基础上结合本领域常规技术手段,获得权利要求1所要求保护的技术方案,对于本领域技术人员来说是显而易见的,因此,权利要求1不具有突出的实质性特点和显著的进步,不符合专利法第22条第3款有关创造性的规定。
2、从属权利要求2引用权利要求1,对比文件1公开了:动作220包括执行一个或多个语音活动检测(VAD)处理阶段,该阶段评估声学输入是否具有语音/讲话的特性或者声学输入是否更可能是环境中非语音声学活动的结果(参见说明书第[0053]段),VAD处理阶段包括分析声学输入的音素内容,以确定声学输入包括讲话的可能性,例如,一个或多个VAD处理阶段可以利用有限数量的存储的音素模型(或完整集合)并将声学输入与音素模型比较来评估声学输入是否具有音素内容,例如,如果声学输入的部分匹配所利用的音素模型中的一个或多个,则可以确定声学输入可能包括讲话的音素内容特性(参见说明书第[0081]段)(相当于实时监测预设环境范围内输入的声音信息,并在有声音信息输入时,根据预存的语音包对所述声音信息进行甄别处理,以确定当前声音信息是否为语音信息);当给定的用户说话时,可以计算讲话从中到来的方向,当移动设备接收到声学输入时,声学信息的方向可以被计算出并与存储的方向进行比较,如果声学输入来自不同的方向,则语音应答系统可以忽视该声学输入,如同其不包括来自给定用户的语音命令,另选地或附加地,该存储的方向可以用来过滤掉从其它方向接收到的声学信息,使得声学输入包括更多来自用户大致方向的信号,以改善声学输入的后续处理(相当于过滤处理)(参见说明书第[0121]段);如果给定的VAD处理阶段以足够高的置信度(相当于相似化分析)断定声学输入包括语音内容,则进一步的VAD处理阶 段可以被省略,有助于直接前进到一个或多个讲话处理阶段来评估讲话的内容(参见说明书第[0144]段)(相当于当相似化分析处理结果满足预设的语音命令激活条件时,激活语音命令输入模式)。因此,权利要求2的附加技术特征已被对比文件1公开,在其引用的权利要求不具备创造性的情况下,该从属权利要求同样不具备专利法第22条第3款规定的创造性。
3、权利要求3引用权利要求1或2,对比文件1公开了:语音应答系统750可以执行NLP阶段730来评估声学输入的语义内容,以理解当用户说出语音命令时想要语音应答系统做什么,在图7B所示的例子中,NLP阶段730可以确定用户想查看他/她的日历,以检查明天安排了什么预约,因此,语音应答系统750可以检查以查看明天的日期并启动日历应用(参见过程740),并向日历应用传递任何合适的参数785,诸如明天的日期,使得日历可以显示用户感兴趣的那一天和/或在日历上列出安排在指示的日期的预约(参见说明书第[0148]段,图7B);NLP组件940也可以包括(或另选地包括)一个或多个基于规则的模型,它们提供关于如何将声学输入中的单词或短语映射到语音命令和/或对应的任务的一组规则并且/或者将声学输入中的单词或短语映射到识别的任务的参数,例如,NLP组件940可以包括基于规则的自然语言处理组件以提取关于在声学输入中识别的构成单词的相关事实、将事实链接到概念或以其它方式帮助评定语音命令是否存在和/或识别在声学输入中指定的一个或多个任务,在基于规则的系统中,语言学家和/或其它个人可以创建多个规则,该多个规则可以指定哪些单词或单词的组合证明识别的声学输入包括语音命令和/或指定特定的任务,一些规则可以是相当的具体,使得规则的触发以很高的概率指示由此表达的确定是准确的(例如,单词“呼叫”的检测结合识别正确的名称可以以很高的概率指示声学输入包括拨打电话的语音命令)(参见说明书第[0178]-[0180]段)。可见对比文件1中NLP阶段730评估声学输入的内容,并基于规则模型理解用户说出语音命令时想要语音应答系统做什么,因此其必然预设了相应的命令类型(例如,显示日历、呼叫等),并基于预设的命令烈性与提取得到的语音输入命令进行对比以确定命令类型,基于确定的命令类型,对语音输入命令进行下发处理,以完成当前语音信息的语音输入命令。因此,权利要求3的附加技术特征已被对比文件1公开,在其引用的权利要求不具备创造性的情况下,该从属权利要求同样不具备专利法第22条第3款规定的创造性。
4、权利要求4引用权利要求3,对比文件1公开了:术语“语音命令”指从用户到语音应答系统的任何类型的可执行语音输入,包括语音查询(例如,“最近的加油站在哪?”、 “波士顿的温度是多少?”、“我从这怎么到Mass Pike?”、“我今天都安排了什么预约?”、“杯子里有多少个勺子?”,等等)(参见说明书第[0027]段),即对比文件1公开了语音输入命令包括查询命令,而针对语音查询命令,在预设时长内进行自动查询后,直接以语言形式播放当前语音信息所需查询的信息完成当前查询命令是语音交互领域的常规技术手段,无需付出创造性的劳动,例如苹果公司于2010年推出语音交互软件siri,其能够在预设时长内对用户的语音查询命令进行查询并以语音方式反馈所查询到的信息。因此在其引用的权利要求不具备创造性的情况下,该从属权利要求同样不具备专利法第22条第3款规定的创造性。
5、权利要求5引用权利要求4,对比文件1公开的语音查询命令中(参见说明书第[0027]段),“最近的加油站在哪?”相当于与查询命令对应的预存信息,“波士顿的温度是多少?”相当于与查询命令对应的更新信息;而在针对语音查询命令进行信息查询时,本领域技术人员通常会按照一定的查询规则进行查询,当存在多个查询条件时,按输入的先后顺序进行查询是常规的查询方式,因此将当前语音信息包含的多个查询条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的查询处理后,按预设的查询命令结束规则,结束当前查询命令,是本领域的常规技术手段,无需付出创造性的劳动。因此在其引用的权利要求不具备创造性的情况下,该从属权利要求同样不具备专利法第22条第3款规定的创造性。
6、权利要求6引用权利要求3,权利要求7引用权利要求4或5,对比文件2公开了一种带声控功能的采暖控制系统,其公开了:用户直接说出末端中心20内储存的明确词时,末端单元10的语音接收单元接收到明确词后,由末端单元10的语音处理单元进行处理,并传给末端中心20,末端中心20将所要控制的末端单元10的情况通过对应的末端单元播报给用户,播报内容包括:当前的设定温度值,当前的温度值,并提示用户是否需要重新进行温度设置,用户根据实际需要答复“是”,并说出所要调到的温度值,末端中心20接收到“是”和所要调到的温度值后,则令末端单元10自行调节到所需的温度值,之后末端中心20向控制中心30发出信号,控制中心30具体执行操作指令(参见说明书第[0025]段),即对比文件2公开了“当语音输入命令是设置命令时,直接以语音形式提示当前语音信息所需设置信息的当前值、并以语言形式询问是否需要重新设定该设置信息为当前语音信息的期望值,根据用户在预设时长内的语音反馈信息,在预设时长内进行自动设置完成当前设置命令”,给出了相应的技术启示,本领域技术人员有动机将对比文件2公开的上述内容应用于对比文件1中,对其作出进一步的改进,至于“如果用户在预设时长内没有基于所述询问的语音反馈信息,则默认所述提示的当前值为期望值,完成当前设置命令”是语音交互中的常规技术手段。因此在其引用的权利要求不具备创造性的情况下,上述从属权利要求同样不具备专利法第22条第3款规定的创造性。
7、权利要求8引用权利要求6,权利要求9引用权利要求7,在针对语音设置命令进行设置时,本领域技术人员通常会按照一定的规则进行,当存在多个设置条件时,按输入的先后顺序进行设置是常规的查询方式,因此将当前语音信息包含的多个设置条件按输入的先后顺序,通过依次延迟预设时长的方式依次完成相应的设置处理后,按预设的设置命令结束规则,结束当前设置命令,是本领域的常规技术手段,无需付出创造性的劳动。因此在其引用的权利要求不具备创造性的情况下,上述从属权利要求同样不具备专利法第22条第3款规定的创造性。
8、权利要求10引用权利要求2、4-6、8或9,权利要求11引用权利要求3,权利要求12引用权利要求7,对比文件1公开了:有限ASR也可以在网络服务器上而不是在移动设备上执行(即,对比文件1预存的语音命令包可采用本地方式或云计算方式)(参见说明书第[0090]段),有限词汇表在这点上也可以基于用户的行为来构建、学习或修改(即,对比文件1预存的语音命令包可以进行升级或更新处理)(参见说明书第[0088]段),由此可知,对比文件1公开了通过本地或云计算方式执行预存的语音命令包,且语音命令包能够基于用户的行为进行升级或更新,在此基础上,本领域技术人员为了更好地进行语音识别与交互,易于想到对预存的语音包、相应语音命令对应的预存信息同样进行升级或更新处理,以得到语音包和/或语音命令包和/或预存信息的扩展结果,而通过本地学习和/或云计算和/或程序升级的方式进行升级或更新,是本领域的常规技术手段。因此在其引用的权利要求不具备创造性的情况下,上述从属权利要求同样不具备专利法第22条第3款规定的创造性。
9、权利要求13引用权利要求10,权利要求14引用权利要求11或12,对比文件1公开了:有限词汇表可以基于用户的行为来构建、学习或修改,例如,由用户在过去的语音命令中说出的单词可以被加到有限词汇表中;在如此识别的语音命令中由用户说出的单词可 以被存储并且每次给定的单词再次被用户说出时,可以递增对那个单词的使用计数,其中说出给定单词的时间也可被记录,使得可以确定使用的频率,以这种方式,可以获得当说出语音命令时用户说特定单词多少次和/或有多频繁的记录,当没有出现在有限词汇表中的单词 达到某个阈值计数和/或被足够频繁地说出时(例如,在给定的时间间隔内说了足够多次),该单词可以被包括在有限词汇表中,如果确定当说出语音命令时用户没有经常地使用或根本没有使用包括在有限词汇表中的一个或多个单词,则这一个或多个单词可以被去除(参见说明书第[0088]段),由此可见,对比文件1公开了收集常用用语及使用习惯的本地收集信息,对本地收集信息进行分析,基于分析结果自动匹配用户、和/或删减预存的语音命令包中预设时长内未使用的数据,以实现对预存的语音包和/或预存的语音命令包和/或与相应语音命令对应的预存信息的更新处理,同时,在语音识别程序中,地方方言是影响识别正确率的常规因素之一,因此在对语音命令包进行更新时收集地方方言信息有助于提高识别正确率,这对本领域技术人员而言是易于想到的。此外,对比文件1公开了可以通过在线服务器的方式存储语音命令包,因此在具体实施对预存的语音包和/或预存的语音命令包和/或与相应语音命令对应的预存信息的更新处理时,本领域技术人员易于想到将本地收集的信息上传至服务器,经服务器二次分析后再次下载,或者直接通过服务器下载网络收集的相关信息,即“通过云计算将本地收集信息发送至服务器,通过服务器进行二次分析,对二次分析结果确认后,自动下载基于二次分析结果的用户使用数据,和/或,通过云计算增加最新的用户数据,该用户数据来自于网络收集信息、以及对网络收集信息的分析结果”是本领域的常规在线更新方式。另外,差分升级和/或正常升级是常规的程序升级方式,通过差分升级和/或正常升级对预存的语音包和/或预存的语音命令包和/或与相应语音命令对应的预存信息进行更新处理是本领域的常规技术手段。因此在其引用的权利要求不具备创造性的情况下,上述从属权利要求同样不具备专利法第22条第3款规定的创造性。
10、权利要求15引用权利要求1、2、4-6、8、9、11-13之一,权利要求16引用权利要求3,权利要求17引用权利要求7,权利要求18引用权利要求10,权利要求19引用权利要求14,对本领域技术人员而言,为了加强与用户的交互,在激活的语音命令输入模式下,和/或基于下发处理得到的完成结果,自动显示和/或以语音形式提示用户当前可使用的语音功能以方便用户进行操作是常规技术手段。因此在其引用的权利要求不具备创造性的情况下,上述从属权利要求同样不具备专利法第22条第3款规定的创造性。
11、权利要求20请求保护一种基于语音识别的显示装置,该显示装置中各模块单元所实现的功能或所起的作用与权利要求1的显示方法所限定的方法步骤相对应,基于上述评述权利要求1的相同理由,权利要求20也不具备创造性,不符合专利法第22条第3款的规定。
12、权利要求21-38的附加技术特征与权利要求2-19的附加技术特征相对应,基于上述评述权利要求2-19的相同理由,权利要求21-38也不具备创造性,不符合专利法第22条第3款的规定。
13、权利要求39请求保护一种显示系统,其包括如权利要求20-38任一所述的装置,对比文件1是最接近的现有技术,对比文件1的移动设备100包括用于向用户可视地呈现信息的显示器(参见说明书第 [0044]段),其中显示器相当于显示装置,移动设备100相当于显示系统,由于权利要求20-38任一所述的装置不具备创造性,因此权利要求39请求保护的显示系统也不具备创造性,不符合专利法第22条第3款的规定。
14、权利要求40请求保护一种空调,其具有如权利要求39所述的显示系统,对比文件1是最接近的现有技术,权利要求39所述的显示系统不具备创造性,本领域技术人员为了增强用户使用空调时的交互体验,易于想到将权利要求39所述的显示系统具体应用于空调场景下,因此权利要求40请求保护的空调也不具备创造性,不符合专利法第22条第3款的规定。
综上所述,本申请权利要求第1-40项不具备专利法第22条第3款规定的创造性。
三、决定
维持国家知识产权局于2018年10月12日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。