基于大数据的建筑行业信息采集系统及其方法-复审决定


发明创造名称:基于大数据的建筑行业信息采集系统及其方法
外观设计名称:
决定号:181338
决定日:2019-06-18
委内编号:1F264610
优先权日:
申请(专利)号:201710760105.0
申请日:2017-08-30
复审请求人:成都中建科联网络科技有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:李燕东
合议组组长:刘莹莹
参审员:王雪莲
国际分类号:G06F17/30;G06Q50/08
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,但是上述区别技术特征或者属于本领域的公知常识,或者被其他对比文件公开,即其他现有技术中给出了将上述区别技术特征应用到该最接近的现有技术以解决其技术问题的启示,从而使得本领域技术人员在现有技术的基础上得到该权利要求的技术方案是显而易见的,那么该权利要求所要求保护的技术方案不具备创造性。
全文:
本复审请求审查决定涉及申请号为201710760105.0,名称为“基于大数据的建筑行业信息采集系统及其方法”的发明专利申请(下称本申请)。本申请的申请人为成都中建科联网络科技有限公司,申请日为2017年08月30日,公开日为2018年01月12日。
经实质审查,国家知识产权局原审查部门于2018年08月03日发出驳回决定,驳回了本申请,其理由是:权利要求1-7不具备专利法第22条第3款规定的创造性。驳回决定具体指出:权利要求1与对比文件1(CN104484424A, 公开日为:2015年04月01日)的区别技术特征在于:① 采集系统是基于大数据的;②所述数据采集模块与网站调度模块之间互相独立;③所述网站调度模块中设有与不同网站相连接的配置接口;④所述数据采集模块采用消息队列持久化技术。区别②在对比文件2(CN106096056A,公开日为:2016年11月09日)中公开,区别①是本领域技术人员根据对比文件2公开的内容结合公知常识容易想到的,区别③、④是本领域技术人员容易想到的,因此权利要求1不具备创造性。从属权利要求2、4、5的附加技术特征是本领域技术人员容易想到的,从属权利要求3的附加技术特征部分已在对比文件2中公开,部分是本领域技术人员容易想到的,因此权利要求2-5不具备创造性。权利要求6与对比文件1的区别技术特征在于:①采集系统是基于大数据的;②S1具体为开发者登录系统,根据采集网站数据类型的不同以进行任务设置;③S2还包括使用进程管道命令创建进程,然后将进程采集信息输出到自定义文本;④任务配置的方法具体为:对于需要按日期采集的网站,配置日期参数,启动采集脚本调用对应的采集数据模块的脚本进行采集任务;对于查询采集的网站,配置对用查询的参数,调用中间件提供消息持久化,多进程采集数据。区别①、②部分已在对比文件2中公开,部分是本领域技术人员根据对比文件2公开的内容结合公知常识容易想到的,区别③、④是本领域技术人员容易想到的,因此权利要求6不具备创造性。从属权利要求7的附加技术特征是本领域技术人员容易想到的,因此权利要求7不具备创造性。
驳回决定所依据的文本为:申请日2017年08月30日提交的说明书摘要、说明书第1-34段、说明书附图图1、摘要附图;2018年07月10日提交的权利要求第1-7项。
驳回决定所针对的权利要求书如下:
“1. 一种基于大数据的建筑行业信息采集系统,其特征在于:包括数据采集模块、网站调度模块和数据加工模块,所述数据采集模块与网站调度模块之间互相独立,所述网站调度模块中设有与不同网站相连接的配置接口;所述数据采集模块采用消息队列持久化技术,通过网站调度模块的接口向不同的网站请求相应的数据,再将请求到的数据存储到数据库;所述网站调度模块用于配置不同网站的参数,并发送给数据采集模块对应启动不同网站的采集任务;所述数据加工模块用于接收数据采集模块传输过来的网站原始数据,并对数据解析后写入到数据库中。
2. 根据权利要求1所述基于大数据的建筑行业信息采集系统,其特征在于,所述数据加工模块中配置有与不同网站相匹配的数据解析单元和数据仓库单元。
3. 根据权利要求2所述基于大数据的建筑行业信息采集系统,其特征在于,所述数据采集模块设置有数据采集日志,所述数据采集日志用于记录当发生网络异常时采集脚本请求或发送失败的异常节点数据。
4. 根据权利要求3所述基于大数据的建筑行业信息采集系统,其特征在于,所述数据采集模块在网络恢复后自动对数据采集日志的异常节点数据进行重新请求和/或发送。
5. 根据权利要求4所述基于大数据的建筑行业信息采集系统,其特征在于,还包括用户管理模块,所述用户管理模块用于管理用户账号、分配用户权限。
6. 一种基于大数据的建筑行业信息采集方法,其特征在于:包括以下步骤:
S1、开发者登录系统,根据采集网站数据类型的不同,进行不同任务配置,
任务配置的方法具体为:对于需要按日期采集的网站,配置日期参数,启动采集脚本调用对应的采集数据模块的脚本进行采集任务;对于查询采集的网站,配置对用查询的参数,调用中间件提供消息持久化,多进程采集数据;
S2、根据任务启动采集数据模块,使用进程管道命令创建进程,然后将进程采集信息输出到自定义文本,完成采集;
S3、数据加工模块根据采集回来的数据,进行解析加工然后存储到数据库。
7. 根据权利要求6所述的一种基于大数据的建筑行业信息采集方法,其特征在于:S3中所述解析加工的具体方法为:对于按日期采集的数据在采集完成之后解析企业感兴趣的相关数据对应存储到数据库,并对解析失败的数据在数据展示模块进行对应的提示;对于查询采集的数据在采集完成后根据对应的公司解析相应的人员、资质、业绩和信用评价数据,对重复数据及无效数据进行深度清洗,对于公司人员信息的变更进行更新、添加和减少的操作,并记录更新状态存储到数据库。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年11月02日向国家知识产权局提出了复审请求,同时修改了权利要求书,主要修改在于:将“所述数据采集模块采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩;所述数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩”补入原独立权利要求1中;将“采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩”、“所述数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩” 补入原独立权利要求6中。
复审请求人认为:权利要求1与对比文件1相比,区别在于:(1)采集系统是基于大数据的建筑行业信息采集系统;(2)数据采集模块采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩;(3)数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩;(4)数据采集模块与网站调度模块之间互相独立;(5)网站调度模块中设有与不同网站相连接的配置接口;(6)所述数据采集模块采集消息列持久化技术。
本申请要求保护的权利要求1,采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩。解决的技术问题为:针对目前建筑行业从业人员获取数据的通道主要是通过各个地区建设厅、招投标网站或者全国建筑行业的相关信息平台获取相关信息(包括行业动态、公司业绩、证件信息),缺少一个可以完成海量数据采集的专有系统。
对比文件1中公开的方案只涉及了建筑材料的价格信息,仅仅获知建筑材料价格信息,无法解决行业动态、公司业绩、证件信息等问题。对比文件2公开的采集系统用于满足大数据需求,也仅仅是“将封装好的数据存储在线舆情大数据库中”。
对比文件1虽然公开了“通过接口访问不同的网站”,但区别技术特征5“在网站调度模块配置不同的接口”,是由于采集网站数据类型不同。
本申请要采集的数据包括两种:一种是建筑行业动态信息、政策法规、通知公告等,需按日期进行采集的数据;另一种是建筑公司资质、人员、业绩等按公司名称查询进行采集的数据。而对比文件1和对比文件2均未公开该技术特征,因此修改后的权利要求1具备创造性。
复审请求时新修改的权利要求书如下:
“1. 一种基于大数据的建筑行业信息采集系统,其特征在于:包括数据采集模块、网站调度模块和数据加工模块,所述数据采集模块与网站调度模块之间互相独立,所述网站调度模块中设有与不同网站相连接的配置接口;所述数据采集模块采用消息队列持久化技术,通过网站调度模块的接口向不同的网站请求相应的数据,再将请求到的数据存储到数据库;所述网站调度模块用于配置不同网站的参数,并发送给数据采集模块对应启动不同网站的采集任务;所述数据加工模块用于接收数据采集模块传输过来的网站原始数据,并对数据解析后写入到数据库中;
所述数据采集模块采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩;所述数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩。
2. 根据权利要求1所述基于大数据的建筑行业信息采集系统,其特征在于,所述数据加工模块中配置有与不同网站相匹配的数据解析单元和数据仓库单元。
3. 根据权利要求2所述基于大数据的建筑行业信息采集系统,其特征在于,所述数据采集模块设置有数据采集日志,所述数据采集日志用于记录当发生网络异常时采集脚本请求或发送失败的异常节点数据。
4. 根据权利要求3所述基于大数据的建筑行业信息采集系统,其特征在于,所述数据采集模块在网络恢复后自动对数据采集日志的 异常节点数据进行重新请求和/或发送。
5. 根据权利要求4所述基于大数据的建筑行业信息采集系统,其特征在于,还包括用户管理模块,所述用户管理模块用于管理用户账号、分配用户权限。
6. 一种基于大数据的建筑行业信息采集方法,其特征在于:包括以下步骤:
S1、开发者登录系统,根据采集网站数据类型的不同,进行不同任务配置;采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩;
任务配置的方法具体为:对于需要按日期采集的网站,配置日期参数,启动采集脚本调用对应的采集数据模块的脚本进行采集任务;对于查询采集的网站,配置对用查询的参数,调用中间件提供消息持久化,多进程采集数据;
S2、根据任务启动采集数据模块,使用进程管道命令创建进程,然后将进程采集信息输出到自定义文本,完成采集;
S3、数据加工模块根据采集回来的数据,进行解析加工然后存储到数据库,所述数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩。
7. 根据权利要求6所述的一种基于大数据的建筑行业信息采集方法,其特征在于:S3中所述解析加工的具体方法为:对于按日期采集的数据在采集完成之后解析企业感兴趣的相关数据对应存储到数据库,并对解析失败的数据在数据展示模块进行对应的提示;对于 查询采集的数据在采集完成后根据对应的公司解析相应的人员、资质、业绩和信用评价数据,对重复数据及无效数据进行深度清洗,对于公司人员信息的变更进行更新、添加和减少的操作,并记录更新状态存储到数据库。”
经形式审查合格,国家知识产权局于2018年11月07日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为,①对比文件1已经公开了采集建筑行业资源的价格和型号等数据,以方便价格采集工作、提高企业竞标竞争力;在竞标时,为了提高竞争力,需要知己知彼并了解相关政策,因此,采集的数据还可以包括在竞标以及建筑施工时会用到的各种建筑行业数据,如建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩是本领域技术人员容易想到的,以节省用户获取多种数据的步骤。②对比文件1公开了采集建筑行业资源的价格和型号等数据,对每一个抓取对象设置抓取规则,指定要抓取的数据内容和抽取规则,并且从不同的网站中抓取数据。可见对比文件1也并不是只采集价格数据;另外,不同的数据类型的数据格式和分类方式往往不相同,不同网站的数据存储方式也通常不一致,为了从不同的网站抓取不同类型的数据,本领域技术人员容易想到,根据不同的数据以及不同的网站设置不同的接口。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年03月14日向复审请求人发出复审通知书,指出:权利要求1-7不具备专利法第22条第3款规定的创造性。复审通知书具体指出权利要求1与对比文件1的区别在于:(1)采集系统是基于大数据的,所述数据采集模块与网站调度模块之间互相独立;(2)所述网站调度模块中设有与不同网站相连接的配置接口,所述数据采集模块采用消息队列持久化技术,数据采集模块采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩;所述数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩。区别(1)的部分特征已被对比文件2公开,其余部分特征是本领域技术人员根据对比文件2公开的内容结合公知常识容易想到的,区别(2)的部分特征是本领域技术人员根据对比文件1公开的内容结合公知常识容易想到的,其余部分特征是本领域的公知常识,因此权利要求1不具备创造性。从属权利要求2、4、5的附加技术特征是本领域技术人员容易想到的,从属权利要求3的附加技术特征部分已在对比文件2中公开,部分是本领域技术人员容易想到的,因此权利要求2-5不具备创造性。权利要求6与对比文件1的区别在于:(1)采集系统是基于大数据的;(2)S1具体为开发者登录系统进行配置,采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩,任务配置的方法具体为:对于需要按日期采集的网站,配置日期参数,启动采集脚本调用对应的采集数据模块的脚本进行采集任务;对于查询采集的网站,配置对用查询的参数,调用中间件提供消息持久化,多进程采集数据;S2还包括使用进程管道命令创建进程,然后将进程采集信息输出到自定义文本;数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩。区别(1)的部分特征已被对比文件2公开,其余部分特征是本领域技术人员根据对比文件2公开的内容结合公知常识容易想到的,区别(2)部分特征是本领域技术人员根据对比文件1公开的内容结合公知常识容易想到的,其余部分特征是本领域的公知常识,因此权利要求6不具备创造性。从属权利要求7的附加技术特征是本领域技术人员容易想到的,因此权利要求7不具备创造性。
复审请求人于2019年04月24日提交了意见陈述书,未对申请文件进行修改。复审请求人认为:“建筑行业数据”本身包含有哪些内容属于本领域的公知常识,但通过什么渠道获取,获取的速度、准确度,是否方便需要通过技术手段来解决。对比文件1中公开的内容为:采集的数据为建筑施工企业资源价格信息,包含“发布地区、时间、资源品名、材质、规格、价格、数量、生产厂、仓库地、交易地等”。方案围绕“价格信息”这一关键因素。对比文件1设置抓取规则,指定数据元素,通过设置正则表达式从网页上找到所需的数据。本申请将数据类型分为两种类型,按日期采集和按公司名称查询采集。本申请是建筑行业大数据,需要将特征限定为依照网站数据类型不同,对应在网站调度模块配置不同的接口,与对比文件1不同。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
1、审查文本的认定
复审请求人在2019年04月24日答复复审通知书时,未对修改文件进行修改。本决定所依据的审查文本与复审通知书相同,为复审请求人于申请日2017年08月30日提交的说明书摘要、说明书第1-34段、说明书附图图1、摘要附图;2018年11月02日提交的权利要求第1-7项。
2、关于专利法第22条第3款
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,但是上述区别技术特征或者属于本领域的公知常识,或者被其他对比文件公开,即其他现有技术中给出了将上述区别技术特征应用到该最接近的现有技术以解决其技术问题的启示,从而使得本领域技术人员在现有技术的基础上得到该权利要求的技术方案是显而易见的,那么该权利要求所要求保护的技术方案不具备创造性。
本复审决定中引用原审查部门在驳回决定中所引用的对比文件1和对比文件2作为现有技术,即:
对比文件1:CN 104484424A,公开日为:2015年04月01日;
对比文件2:CN 106096056A,公开日为:2016年11月09日;
其中,对比文件1作为最接近的现有技术。
(1)权利要求1不符合专利法第22条第3款有关创造性的规定
权利要求1请求保护一种基于大数据的建筑行业信息采集系统,对比文件1公开了一种基于互联网建筑施工企业资源价格信息库的构建方法(通过采集数据,构建信息库;其必然有实现上述方法的系统,相当于一种建筑行业信息采集系统),并具体公开了如下技术特征(参见说明书第6-16段):
价格采集任务的执行包括:(1)抓取指定网站价格数据网页,任务模拟访问某一个价格网站进行价格数据网页抓取工作;(2)依据抓取规则抓取数据;(3)依据清洗规则清洗数据;(4)依据存储规则保存数据(其必然有实现上述方法的模块,相当于包括数据采集模块、网站调度模块和数据加工模块);抓取数据时,在某一网站网页保存后,就可以按该网站设置的抓取规则抓取数据;数据抓取后,需要对所有网站抓取的数据根据设置的规则进行清洗整理,才能得到最终有效的数据;(1)任务基本属性;(2)任务的数据来源,指定抓取数据的价格网站网址,设置任务抓取网站的登录网址、登录用户名和密码、验证码获取规则等信息;(3)任务的抓取规则,用于对每一个抓取对象设置抓取规则,指定要抓取的数据内容和抽取规则;用户也可在满足抓取规则接口的情况下自行开发扩展数据抓取方法(相当于所述数据采集模块通过网站调度模块的接口向不同的网站请求相应的数据;所述网站调度模块用于配置不同网站的参数,并发送给数据采集模块对应启动不同网站的采集任务);(6)任务的数据清洗规则,用于对采集的数据进行再次校验整理,并对数据进行比较去重;(7)任务的存储规则,可以存储到数据库表或物理文件,所述数据库支持各种主流数据库,用户也可在满足存储接口的情况下自行开发扩展存储方式;数据保存时要包含发布地区、时间、资源品名、材质、规格、价格、数量、生产厂、仓库地、交易地等要素,数据存储的规则要一致,要能方便的根据时间和地区等要素把资源价格信息分开或合并保存(相当于将请求到的数据存储到数据库,所述数据加工模块用于接收数据采集模块传输过来的网站原始数据,并对数据解析后写入到数据库中)。
该权利要求所要求保护的技术方案与对比文件1所公开的技术内容相比,其区别在于:(1)采集系统是基于大数据的,所述数据采集模块与网站调度模块之间互相独立;(2)所述网站调度模块中设有与不同网站相连接的配置接口,所述数据采集模块采用消息队列持久化技术,数据采集模块采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩;所述数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩。
根据上述区别技术特征,该权利要求所要求保护的技术方案实际所要解决的技术问题是:如何采集数据以及具体采集并存储何种数据。
对于上述区别技术特征(1),对比文件2公开了一种基于分布式的舆情数据实时采集方法和系统,并具体公开了如下技术特征(参见说明书第28-52段):所述的系统包括:数据准备模块(相当于网站调度模块),用于完成源站的分类以及目标数据项定义;更新监测模块,用于监测目标数据网站的更新情况;数据爬取模块(相当于数据采集模块,所述数据采集模块与网站调度模块之间互相独立),用于模拟浏览器环境访问源站目标页面并将页面数据获取到本地;代理设置模块,用于自动为服务器分配IP地址;队列设置模块,用于负责管理阻塞URL采集队列,以及结果数据存储队列,并进行去重操作;数据解析模块,用于通过分析源数据,并从中解析出目标数据项;数据封装模块,用于将爬取到的数据项统一封装成标准格式输出;数据存储模块,用于将封装好的数据存储到在线舆情大数据库;SSDB数据库能同时满足高性能和大数据的需求;日志生成模块,用于各环节监测状态的日志输出。上述公开的内容在对比文件2中所起的作用与该区别技术特征在本权利要求中所起的作用相同,都是用于采集网站数据,也就是说对比文件2给出了将该技术特征用于该对比文件1以解决其技术问题的启示。对比文件1公开了采集建筑行业的信息采集系统,对比文件2已经公开了采集系统用于满足大数据需求;同时大数据的需求越来越广泛属于本领域的公知常识,在此基础上,实现一种基于大数据的建筑行业信息采集系统是本领域技术人员容易想到的。
对于上述区别技术特征(2),对比文件1已经公开了通过接口访问不同的网站,按该网站设置的抓取规则抓取数据,任务的抓取规则,用于对每一个抓取对象设置抓取规则,指定要抓取的数据内容和抽取规则,即公开了数据采集模块通过网站调度模块的接口向不同的网站请求相应的数据;所述网站调度模块用于配置不同网站的参数,并发送给数据采集模块对应启动不同网站的采集任务。而本领域中公知的不同的网站的数据接口可能不一致,不同的数据类型的数据格式和分类方式往往不相同,不同网站的数据存储方式也可能不一致,为了从不同的网站抓取不同类型的数据,本领域技术人员容易想到,针对不同的网站设置不同的接口。因此,网站调度模块中设有与不同网站相连接的配置接口是本领域技术人员容易想到的。此外,采用消息队列持久化是本领域的惯用技术手段,数据采集模块采用消息队列持久化技术以防止消息没有被保存而丢失是本领域技术人员容易想到的。至于采集并存储的数据的具体内容属于本领域的公知常识,复审请求人提供的中国建筑工程行业市场前景分析预测报告中公布的数据来源也证明了这一点。
因此,在对比文件1的基础上结合对比文件2及本领域的公知常识得出该权利要求所要求保护的技术方案,对本领域的技术人员来说是显而易见的,该权利要求所要求保护的技术方案不具有突出的实质性特点和显著的进步,因而不具备专利法第22条第3款规定的创造性。
(2) 权利要求2-5不符合专利法第22条第3款有关创造性的规定
权利要求2引用了权利要求1,在本领域中,不同的网站的数据封装方式以及数据项不一致属于公知常识,因此,数据加工模块中配置有与不同网站相匹配的数据解析单元和数据仓库单元是本领域技术人员容易想到的。因此,当其引用的权利要求1不具备创造性时,权利要求2所要求保护的技术方案也不具备专利法第22条第3款规定的创造性。
权利要求3引用了权利要求2,对比文件2公开了如下技术特征:在每一轮爬虫程序执行完成时将监测结果按天生成日志文件(相当于设置有数据采集日志),方便程序员了解程序运行状态,维护程序。至于在何处进行日志采集属于本领域的常规选择,同时,日志用来记录数据运行过程以及错误属于本领域的公知常识,因此,在数据采集模块设置数据采集日志,所述数据采集日志用于记录当发生网络异常时采集脚本请求或发送失败的异常节点数据是本领域技术人员容易想到的。因此,当其引用的权利要求不具备创造性时,权利要求3所要求保护的技术方案也不具备专利法第22条第3款规定的创造性。
权利要求4引用了权利要求3,当任务因某些情况中止时,当状况解除,重新执行任务属于本领域的惯用技术手段,因此,所述数据采集模块在网络恢复后自动对数据采集日志的异常节点数据进行重新请求和/或发送是本领域技术人员容易想到的。因此,当其引用的权利要求不具备创造性时,权利要求4所要求保护的技术方案也不具备专利法第22条第3款规定的创造性。
权利要求5引用了权利要求4,在一个系统中,包括不同的权限的用户属于本领域的公知常识,因此包括用户管理模块,所述用户管理模块用于管理用户账号、分配用户权限是本领域技术人员容易想到的。因此,当其引用的权利要求不具备创造性时,权利要求5所要求保护的技术方案也不具备专利法第22条第3款规定的创造性。
(3)权利要求6不符合专利法第22条第3款有关创造性的规定
权利要求6请求保护一种基于大数据的建筑行业信息采集方法,对比文件1公开了一种基于互联网建筑施工企业资源价格信息库的构建方法(通过采集数据,构建信息库,相当于一种建筑行业信息采集方法),并具体公开了如下技术特征(参见说明书第6-16段):
价格采集任务的设置包括:(1)任务基本属性;(2)任务的数据来源,指定抓取数据的价格网站网址,设置任务抓取网站的登录网址、登录用户名和密码、验证码获取规则等信息;(3)任务的抓取规则,用于对每一个抓取对象设置抓取规则,指定要抓取的数据内容和抽取规则;用户也可在满足抓取规则接口的情况下自行开发扩展数据抓取方法(相当于根据采集网站数据类型的不同,进行不同任务配置);(6)任务的数据清洗规则,用于对采集的数据进行再次校验整理,并对数据进行比较去重;(7)任务的存储规则,可以存储到数据库表或物理文件,所述数据库支持各种主流数据库,用户也可在满足存储接口的情况下自行开发扩展存储方式;数据保存时要包含发布地区、时间、资源品名、材质、规格、价格、数量、生产厂、仓库地、交易地等要素,数据存储的规则要一致,要能方便的根据时间和地区等要素把资源价格信息分开或合并保存。任务的执行频率可按周、天或自定义时间间隔设置。抓取指定网站价格数据网页,任务模拟访问某一个价格网站进行价格数据网页抓取工作;(2)依据抓取规则抓取数据;(3)依据清洗规则清洗数据;(4)依据存储规则保存数据;抓取数据时,在某一网站网页保存后,就可以按该网站设置的抓取规则抓取数据;数据抓取后,需要对所有网站抓取的数据根据设置的规则进行清洗整理,才能得到最终有效的数据(相当于S2、根据任务启动采集数据模块;完成采集;S3、数据加工模块根据采集回来的数据,进行解析加工然后存储到数据库)。
该权利要求所要求保护的技术方案与对比文件1所公开的技术内容相比,其区别在于:(1)采集系统是基于大数据的;(2)S1具体为开发者登录系统进行配置,采集的数据包括建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩,任务配置的方法具体为:对于需要按日期采集的网站,配置日期参数,启动采集脚本调用对应的采集数据模块的脚本进行采集任务;对于查询采集的网站,配置对用查询的参数,调用中间件提供消息持久化,多进程采集数据;S2还包括使用进程管道命令创建进程,然后将进程采集信息输出到自定义文本;数据库中存储的数据为建筑行业动态信息、政策法规、通知公告、建筑公司资质、人员和业绩。
根据上述区别技术特征,该权利要求所要求保护的技术方案实际所要解决的技术问题是:如何采集数据以及具体采集并存储何种数据。
对于上述区别技术特征(1),对比文件2公开了一种基于分布式的舆情数据实时采集方法和系统,并具体公开了如下技术特征(参见说明书第28-52段):S1:建立舆情数据网站类库,分类舆情数据源站,并定义每类网站的爬取数据项;S2:将数据采集网站列表传输给数据采集服务器,数据采集服务器分配相应的爬虫以休眠的模式循环地爬取目标网站数据,采集过程中使用生产者消费者模式并发执行采集任务;S3:对爬取到的源网页数据进行标签解析,定位目标数据项位置获取目标数据项;S4:将获取到的结果数据项封装成对应类的统一格式;S5:将封装后的数据存入对应的数据库;S6:生成监测日志文件;SSDB数据库能同时满足高性能和大数据的需求。上述公开的内容在对比文件2中所起的作用与该区别技术特征在本权利要求中所起的作用相同,都是用于采集网站数据,也就是说对比文件2给出了将该技术特征用于该对比文件1以解决其技术问题的启示。对比文件1公开了采集建筑行业的信息采集系统,对比文件2已经公开了采集系统用于满足大数据需求;同时大数据的需求越来越广泛属于本领域的公知常识,在此基础上,实现一种基于大数据的建筑行业信息采集方法是本领域技术人员容易想到的。
对于上述区别技术特征(2),由用户来设置采集任务是本领域的公知常识,因此,步骤S1具体为开发者登录系统后进而进行任务配置是本领域技术人员容易想到的。
另外,在数据处理时,通过多进程处理数据,并将使用自定义形式保存获得的数据属于本领域的惯用技术手段,因此,使用进程管道命令创建进程,然后将进程采集信息输出到自定义文本,是本领域技术人员容易想到的。
对比文件1已经公开了任务的执行频率可按周、天或自定义时间间隔设置,可以根据时间来保存获得的信息。同时,在数据采集时,根据实际需求,例如关键词,来进行查询采集也属于本领域的常用技术手段。S1中所述任务配置的方法具体为:对于需要按日期采集的网站,配置日期参数,启动采集脚本调用对应的采集数据模块的脚本进行采集任务;对于查询采集的网站,配置对用查询的参数,调用中间件提供消息持久化,多进程采集数据是本领域技术人员容易想到的。
至于采集并存储的数据的具体内容属于本领域的公知常识,复审请求人提供的中国建筑工程行业市场前景分析预测报告中公布的数据来源也证明了这一点。
因此,在对比文件1的基础上结合对比文件2及本领域的公知常识得出该权利要求所要求保护的技术方案,对本领域的技术人员来说是显而易见的,该权利要求所要求保护的技术方案不具有突出的实质性特点和显著的进步,因而不具备专利法第22条第3款规定的创造性。
(4)权利要求7不符合专利法第22条第3款有关创造性的规定
权利要求7引用了权利要求6,对比文件1已经公开了对数据加工,清洗解析后存入数据库,而根据获得的具体数据,采用不同的解析存储方式属于本领域技术人员容易想到的,同时对比文件2还公开了检测网站信息更新,并用于更新存储的数据,因此S3中所述解析加工的具体方法为:对于按日期采集的数据在采集完成之后解析企业感兴趣的相关数据对应存储到数据库,并对解析失败的数据在数据展示模块进行对应的提示;对于查询采集的数据在采集完成后根据对应的公司解析相应的人员、资质、业绩和信用评价数据,对重复数据及无效数据进行深度清洗,对于公司人员信息的变更进行更新、添加和减少的操作,并记录更新状态存储到数据库是本领域的常用技术手段。因此,当其引用的权利要求不具备创造性时,权利要求7所要求保护的技术方案也不具备专利法第22条第3款规定的创造性。
3、对复审请求人相关意见的评述
针对复审请求人的相关意见,合议组认为:对比文件1中公开了:采集的数据为建筑施工企业资源价格信息,包含的“发布地区、时间、资源品名、材质、规格、价格、数量、生产厂、仓库地、交易地等”属于建筑行业信息,因此其公开了建筑行业信息采集系统和采集方法。至于采集并存储的数据的具体内容属于本领域的公知常识。对比文件1已经公开了任务的执行频率可按周、天或自定义时间间隔设置,可以根据时间来保存获得的信息。同时,在数据采集时,根据实际需求,例如关键词,来进行查询采集也属于本领域的常用技术手段。因此,权利要求6中所述任务配置的方法具体为:对于需要按日期采集的网站,配置日期参数,启动采集脚本调用对应的采集数据模块的脚本进行采集任务;对于查询采集的网站,配置对用查询的参数,调用中间件提供消息持久化,多进程采集数据是本领域技术人员容易想到的。
对比文件1已经公开了通过接口访问不同的网站,按该网站设置的抓取规则抓取数据,价格采集任务的设置包括任务的抓取规则,用于对每一个抓取对象设置抓取规则,指定要抓取的数据内容和抽取规则,即公开了数据采集模块通过网站调度模块的接口向不同的网站请求相应的数据;所述网站调度模块用于配置不同网站的参数,并发送给数据采集模块对应启动不同网站的采集任务。而本领域中公知的不同的网站的数据接口可能不一致,不同的数据类型的数据格式和分类方式往往不相同,不同网站的数据存储方式也可能不一致,为了从不同的网站抓取不同类型的数据,本领域技术人员容易想到,针对不同的网站设置不同的接口。因此,网站调度模块中设有与不同网站相连接的配置接口是本领域技术人员容易想到的。
因此,合议组不能接受复审请求人的意见陈述。
三、决定
维持国家知识产权局于2018年08月03日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 0 条评论)
   
验证码: