
发明创造名称:时效性种子页的抓取方法及装置
外观设计名称:
决定号:180434
决定日:2019-06-06
委内编号:1F256858
优先权日:
申请(专利)号:201310638133.7
申请日:2013-12-02
复审请求人:北京奇虎科技有限公司 奇智软件(北京)有限公司
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:史江峰
合议组组长:陈汝岩
参审员:李劲娴
国际分类号:G06F17/30
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,上述区别技术特征没有被其他对比文件所公开,也不是本领域的公知常识,现有技术中也没有给出将上述区别技术特征应用到该对比文件以解决其存在的技术问题的启示,且上述区别技术特征的引入使该权利要求的整体技术方案具有有益的技术效果,那么该项权利要求所要保护的技术方案具备创造性。
全文:
本复审请求涉及申请号为201310638133.7,名称为“时效性种子页的抓取方法及装置”的发明专利申请(下称本申请)。申请人为北京奇虎科技有限公司,奇智软件(北京)有限公司。本申请的申请日为2013年12月02日,公开日为2014年03月05日。
经实质审查,国家知识产权局原审查部门于2018年04月09日以权利要求1-18不具备专利法第22条第3款规定的创造性为由驳回了本申请。驳回决定所依据的文本为2017年05月08日提交的权利要求第1-18项,申请日2013年12月02日提交的说明书第1-118段,说明书摘要,说明书附图图1-3,摘要附图。
驳回决定引用如下对比文件:
对比文件1:CN101187925A,公开日为2008年5月28日;
对比文件3:CN102609456A,公开日为2012年7月25日,
其中,对比文件3作为最接近的现有技术。
驳回决定的具体理由如下:
权利要求1与对比文件3的区别在于:1、判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子,并且作为动态调整当前预设时间段的抓取频率的考虑因素;2、当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;3、平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的抓取频率而确定的。区别技术特征1被对比文件1所公开,区别技术特征2,部分被对比文件3所公开,部分是本领域的惯用技术手段,区别技术特征3是本领域的惯用技术手段,对于本领域技术人员来说,在对比文件3的基础上结合对比文件1以及本领域的惯用技术手段获得权利要求1的技术方案是显而易见的,权利要求1不具有专利法第22条第3款规定的创造性。权利要求2、6-8的附加技术特征被对比文件1公开,权利要求3、4和9的附加技术特征是本领域的惯用技术手段,权利要求5的附加技术特征部分被对比文件3公开,部分是本领域的惯用技术手段,因此权利要求2-9也不具有专利法第22条第3款规定的创造性。权利要求10-18是与方法权利要求1-9对应一致的装置权利要求,因此也不具有专利法第22条第3款规定的创造性。
驳回决定所针对的权利要求书如下:
“1. 一种时效性种子页的抓取方法,包括:
对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子,基于所述频率调整因子计算频率调整系数;
确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子;
根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;
其中,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;
基于所述动态调整后的抓取频率在所述当前预设时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的抓取频率而确定的。
2. 根据权利要求1所述的方法,所述判断所述当前预设时间段是否属于节假日与工作日之间的切换时间进一步包括:
若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则判定所述当前预设时间段属于节假日与工作日之间的切换时间;
若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则判定所述当前预设时间段属于节假日与工作日之间的切换时间。
3. 根据权利要求1或2所述的方法,所述根据节假日与工作日之间的切换情况确定节假日因子进一步包括:
若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则确定节假日因子为大于1的第一预定值;
若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则确定节假日因子为小于1的第二预定值。
4. 根据权利要求1所述的方法,所述根据节假日与工作日之间的切换情况确定节假日因子进一步包括:
通过在当前预设时间段之前若干次节假日与工作日之间切换时的抓取情况,动态调整所述节假日因子。
5. 根据权利要求1或2或4所述的方法,所述根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率具体为:
将所述抓取频率、所述频率调整系数以及所述节假日因子的乘积作为动态调整后的所述当前预设时间段的抓取频率。
6. 根据权利要求1或2或4所述的方法,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
7. 根据权利要求1或2或4所述的方法,所述对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子具体包括:
如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于1的第三预定值;
如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于1的第四预定值。
8. 根据权利要求1或2或4所述的方法,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;
所述基于所述频率调整因子计算频率调整系数具体为:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数。
9. 根据权利要求1或2或4所述的方法,所述方法还包括:如果所述历史预设时间段的抓取频率为无效值,则根据与所述历史预设时间段相邻的预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当 前预设时间段的抓取频率。
10. 一种时效性种子页的抓取装置,包括:
获取模块,用于对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;
计算模块,用于基于所述频率调整因子计算频率调整系数;
抓取频率确定模块,用于确定所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
节假日因子确定模块,用于判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子;
调整模块,用于根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;
其中,所述获取模块具体用于:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;
抓取器,用于基于所述调整模块动态调整后的抓取频率在所述当前预设时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的抓取频率而确定的。
11. 根据权利要求10所述的装置,所述节假日因子确定模块包括:
判断单元,用于若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则判定所述当前预设时间段属于节假日与工作日之间的切换时间;若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则判定所述当前预设时间段属于节假日与工作日之间的切换时间。
12. 根据权利要求10或11所述的装置,所述节假日因子确定模块还包括:
节假日因子确定单元,用于若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则确定节假日因子为大于1的第一预定值;若所述 当前预设时间段属于节假日,而该节假日的前一日为工作日,则确定节假日因子为小于1的第二预定值。
13. 根据权利要求10所述的装置,所述节假日因子确定模块还用于:通过在当前预设时间段之前若干次节假日与工作日之间切换时的抓取情况,动态调整所述节假日因子。
14. 根据权利要求10、11或13所述的装置,所述调整模块具体用于:将所述抓取频率、所述频率调整系数以及所述节假日因子的乘积作为动态调整后的所述当前预设时间段的抓取频率。
15. 根据权利要求10、11或13所述的装置,所述获取模块具体用于:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
16. 根据权利要求10、11或13所述的装置,所述获取模块进一步用于:如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于1的第三预定值;如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于1的第四预定值。
17. 根据权利要求10、11或13所述的装置,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;所述计算模块具体用于:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数。
18. 根据权利要求10、11或13所述的装置,所述调整模块还用于:如果所述历史预设时间段的抓取频率为无效值,则根据与所述历史预设时间段相邻的预设时间段的抓取频率、所述频率调整系数以及所述节假日因子,动态调整所述当前预设时间段的抓取频率。”
申请人(下称复审请求人)对上述驳回决定不服,于2018年07月24日向国家知识产权局提出了复审请求,并提交了权利要求书的全文替换页。复审请求人认为:1、对比文件3分析昨天一天所有轮次的抓取情况,分析是否保证了50%以上的轮次都抓取到更新,是为了确定是否调整第二天抓取的时间间隔,比率50%的界定是为了确定第二天第一次抓取的时间,并不是用于确定当前预设时间段内第一次抓取的频率调整因子,对比文件3并未公开“对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子”;2、对比文件1没有公开区别2):判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子,其中,当前预设时间段在节假日与工作日之间的切换主要包括:当前预设时间段属于工作日,而该工作日的前一日为节假日以及当前预设时间段属于节假日,而该节假日的前一日为工作日;3、下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的抓取频率而确定的,是与所确定的频率调整因子息息相关的,这种抓取时间点的计算方法更为具体、准确。复审请求时修改的权利要求书如下:
“1. 一种时效性种子页的抓取方法,包括:
对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子,基于所述频率调整因子计算频率调整系数;
确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子,其中,当前预设时间段在节假日与工作日之间的切换主要包括:当前预设时间段属于工作日,而该工作日的前一日为节假日以及当前预设时间段属于节假日,而该节假日的前一日为工作日;
根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;
其中,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;
基于所述动态调整后的抓取频率在所述当前预设时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的抓取频率而确定的。
2. 根据权利要求1所述的方法,所述根据节假日与工作日之间的切换情况确定节假日因子进一步包括:
若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则确定节假日因子为大于1的第一预定值;
若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则确定节假日因子为小于1的第二预定值。
3. 根据权利要求1所述的方法,所述根据节假日与工作日之间的切换情 况确定节假日因子进一步包括:
通过在当前预设时间段之前若干次节假日与工作日之间切换时的抓取情况,动态调整所述节假日因子。
4. 根据权利要求1-3中任一项所述的方法,所述根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率具体为:
将所述抓取频率、所述频率调整系数以及所述节假日因子的乘积作为动态调整后的所述当前预设时间段的抓取频率。
5. 根据权利要求1-3中任一项所述的方法,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
6. 根据权利要求1-3中任一项所述的方法,所述对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子具体包括:
如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于1的第三预定值;
如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于1的第四预定值。
7. 根据权利要求1-3中任一项所述的方法,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;
所述基于所述频率调整因子计算频率调整系数具体为:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数。
8. 根据权利要求1-3中任一项所述的方法,所述方法还包括:如果所述历史预设时间段的抓取频率为无效值,则根据与所述历史预设时间段相邻的预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率。
9. 一种时效性种子页的抓取装置,包括:
获取模块,用于对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;
计算模块,用于基于所述频率调整因子计算频率调整系数;
抓取频率确定模块,用于确定所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
节假日因子确定模块,用于判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子,其中,当前预设时间段在节假日与工作日之间的切换主要包括:当前预设时间段属于工作日,而该工作日的前一日为节假日以及当前预设时间段属于节假日,而该节假日的前一日为工作日;
调整模块,用于根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;
其中,所述获取模块具体用于:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;
抓取器,用于基于所述调整模块动态调整后的抓取频率在所述当前预设时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的抓取频率而确定的。
10. 根据权利要求9所述的装置,所述节假日因子确定模块还包括:
节假日因子确定单元,用于若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则确定节假日因子为大于1的第一预定值;若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则确定节假日因子为小于1的第二预定值。
11. 根据权利要求9所述的装置,所述节假日因子确定模块还用于:通过在当前预设时间段之前若干次节假日与工作日之间切换时的抓取情况,动态调整所述节假日因子。
12. 根据权利要求9-11中任一项所述的装置,所述调整模块具体用于: 将所述抓取频率、所述频率调整系数以及所述节假日因子的乘积作为动态调整后的所述当前预设时间段的抓取频率。
13. 根据权利要求9-11中任一项所述的装置,所述获取模块具体用于:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。
14. 根据权利要求9-11中任一项所述的装置,所述获取模块进一步用于:如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于1的第三预定值;如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于1的第四预定值。
15. 根据权利要求9-11中任一项所述的装置,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;所述计算模块具体用于:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数。
16. 根据权利要求9-11中任一项所述的装置,所述调整模块还用于:如果所述历史预设时间段的抓取频率为无效值,则根据与所述历史预设时间段相邻的预设时间段的抓取频率、所述频率调整系数以及所述节假日因子,动态调整所述当前预设时间段的抓取频率。”
经形式审查合格,国家知识产权局于2018年07月30日依法受理了该复审请求,并将其转送至原审查部门进行前置审查。
原审查部门在前置审查意见书中认为:1、对比文件3在不区分抓取时段的情况下公开了至少如下两种抓取频率调整策略:①分析昨天所有轮次的抓取情况,根据数据,发现昨天共抓取了73次,其中32次抓取到更新内容,不到50%的比例,所以将放大时间间隔基数,默认放大0.2倍,以降低无谓抓取请求;如果发现job的当前间隔基数保证了50%以上轮次可以抓取到更新,则不调整;这种调整方式即“根据一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子”,同本申请说明书第[0048]段实施例的调整方式;②以抓取http://www.21chh.com/channel/review/为例,如果本轮次抓取到更新,则减少下一轮次的抓取时间间隔0.2倍;如果本轮次没有抓取到更新,则增加下一轮次的抓取时间间隔0.2倍,但是保证时间间隔是job的抓取间隔基数的 [0.5,2]倍数;这种调整方式即“根据每次抓取发现更新的情况来确定频率调整因子”,同本申请说明书第[0047]段实施例的调整方式;对比文件3与本申请调整方式的不同主要体现在针对不同时段具体采用何种调整方式,而在不同时段具体采取上述两种的何种调整策略,这都属于本领域技术人员的常规选择,比如对于当前预设时间段的每次抓取对应的频率调整因子,本领域技术人员可以根据需求采用对比文件3所公开的两种调整策略的任意一种来执行,如果从减少计算量及加快处理速度的角度,可以仅用上一轮次抓取情况来确定该次抓取的频率调整因子,同时也可以从计算更加准确但是增加了计算量的角度,根据一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子,这都属于本领域惯用手段。2、对比文件1公开了:抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正,如果当前时间为晚上或节假日,抓取检测模块在上一次爬虫对该频道的抓取频率值上乘以一个ftime(t)系数(相当于节假日因子),而节假日通常与工作日存在对应关系,所以在对比文件1已经公开节假日因子调整抓取频率的基础上,本领域技术人员具体根据节假日与工作日之间的切换情况确定时间节点和/或节假日因子调整时机,这属于本领域惯用手段。3、“下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔”已被对比文件3公开:对于时间间隔进行判定,查询此job的抓取间隔基数298603毫秒,如果本轮次抓取到更新,则减少下一轮次的抓取时间间隔0.2倍;如果本轮次没有抓取到更新,则增加下一轮次的抓取时间间隔0.2倍,如果时间间隔指定下一次抓取时间(相当于:下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔)大于当前时间,则将不抓取。另外,时间间隔与频率成倒数关系,由任何一个都可以直接计算得到另一个,具体的时间间隔在对比文件3由时间间隔直接放大或者缩小来确定时间间隔或者在权利要求1由当前预设时间段的总时长和动态调整后的抓取频率计算得到,这都属于本领域惯用手段;并且两种计算方式并不会存在精确度的任何差异。综上,申请人认为权利要求具备创造性的理由不能成立。因而坚持原驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2018年12月28日向复审请求人发出第一次复审通知书,指出:权利要求1与对比文件3的区别在于:1、判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子,其中,当前预设时间段在节假日与工作日之间的切换主要包括:当前预设时间段属于工作日,而该工作日的前一日为节假日以及当前预设时间段属于节假日,而该节假日的前一日为工作日,并且节假日因子作为动态调整当前预设时间段的抓取频率的考虑因素;2、当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;3、平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的抓取频率而确定的。区别技术特征1部分被对比文件1所公开,部分是本领域的常用技术手段,区别技术特征2,部分被对比文件3所公开,部分是本领域的常用技术手段,区别技术特征3是本领域的常用技术手段,对于本领域技术人员来说,在对比文件3的基础上结合对比文件1以及本领域的惯用技术手段获得权利要求1的技术方案是显而易见的,权利要求1不具有专利法第22条第3款规定的创造性。权利要求2和8的附加技术特征是本领域的常用技术手段,权利要求3、4的附加技术特征部分被对比文件3所公开,部分是本领域的常用技术手段,权利要求5-7的附加技术特征被对比文件3公开,因此权利要求2-8也不具有专利法第22条第3款规定的创造性。权利要求9-16是与方法权利要求1-8对应一致的装置权利要求,因此也不具有专利法第22条第3款规定的创造性。
复审请求人于2019年02月12日提交了意见陈述书,并提交了权利要求书的全文替换页。复审请求人认为:1、本申请权利要求1以预设时间段为粒度,针对任一预设时间段都采用同样的抓取方式进行抓取,其明确限定了将一天划分为若干个平均的预设时间段,任一预设时间段和与其对应的历史时间段分属当日和前一日的同一时段,对任一预设时间段都采用同样的抓取方式。对比文件3所参考的历史抓取数据为昨日一天的统计结果,根据该统计结果调整今天初始的抓取间隔基数,对比文件3今天一天每个轮次的抓取时间间隔均是在上一轮次的抓取时间间隔基础上以相应的固定倍数更新,对比文件3的调整策略是一种连续时间上的递进式影响的调整策略。本申请的调整策略是一种同一时段影响的调整策略,与对比文件3的策略具有本质的不同;2、本申请权利要求1中频率调整系数是动态变化的,不同于对比文件3的固定倍数;3、本申请考虑到同一时段的种子页抓取的强关联性,以历史同一时段的抓取频率为调整基数,又利用频率调整系数兼顾实时数据,使调整策略更为准确精细,提升了抓取的效率。
新修改的独立权利要求1和7具体如下:
“1. 一种时效性种子页的抓取方法,其中,将一天划分为若干个平均的预设时间段,任一预设时间段和与其对应的历史预设时间段分属当日和前一日的同一时段,针对任一预设时间段,所述方法包括:
对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子,基于所述频率调整因子计算频率调整系数;
确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子;
根据所述历史预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;
其中,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于n次抓取中的任一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;所述基于所述频率调整因子计算频率调整系数具体为:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数;
基于所述动态调整后的所述当前预设时间段的抓取频率在所述当前预设时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的所述当前预设时间段的抓取频率而确定的。
7. 一种时效性种子页的抓取装置,其中,将一天划分为若干个平均的预设时间段,任一预设时间段和与其对应的历史预设时间段分属当日和前一日的同一时段,所述装置针对任一预设时间段进行处理,所述装置包括:
获取模块,用于对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;
计算模块,用于基于所述频率调整因子计算频率调整系数;
抓取频率确定模块,用于确定所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
节假日因子确定模块,用于判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子;
调整模块,用于根据所述历史预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;
其中,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;所述获取模块具体用于:对于n次抓取中的任一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;所述计算模块具体用于:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数;
抓取器,用于基于所述调整模块动态调整后的所述当前预设时间段的抓取频率在所述当前预设时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的所述当前预设时间段的抓取频率而确定的。”
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出审查决定。
二、决定的理由
审查文本的认定
复审请求人在答复复审通知书时,提交了权利要求书全文替换页,经审查,所述修改符合专利法实施细则第61条第1款和专利法第33条的规定。因此,本复审决定依据的文本为:2019年02月12日提交的权利要求第1-12项,2013年12月02日提交的说明书第1-118段,说明书摘要,说明书附图图1-3,摘要附图。
专利法第22条第3款
专利法第22条第3款规定:创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。
如果一项权利要求所要求保护的技术方案与作为最接近的现有技术的对比文件相比存在区别技术特征,上述区别技术特征没有被其他对比文件所公开,也不是本领域的公知常识,现有技术中也没有给出将上述区别技术特征应用到该对比文件以解决其存在的技术问题的启示,且上述区别技术特征的引入使该权利要求的整体技术方案具有有益的技术效果,那么该项权利要求所要保护的技术方案具备创造性。
本复审决定引用的对比文件与驳回决定以及复审通知书中引用的对比文件相同,即:
对比文件1:CN101187925A,公开日为2008年5月28日;
对比文件3:CN102609456A,公开日为2012年7月25日,
其中,对比文件3作为最接近的现有技术。
2.1 关于权利要求1
权利要求1请求保护一种时效性种子页的抓取方法,对比文件3公开了一种文章实时智能抓取方法,并具体公开了以下技术特征(参见说明书第78-90段,479-505段):实时抓取步骤包括线上和线下运行子步骤,采用了任务抓取间隔动态自适应方法,以抓取http://www.21chh.com/channel/review/(该网址为21世纪经济导报,是一种时效性的经济类网页,相当于,一种时效性种子页的抓取方法)为例,抓取系统的实时抓取模块的线下运行步骤如下:步骤1,分析日志发现新时间范围;步骤2,分析日志发现新时间间隔。分析图16所示job昨天所有轮次的抓取情况,根据数据,发现昨天共抓取了73次,其中32次抓取到更新内容,不到50%的比例,所以将放大时间间隔基数,默认放大0.2倍,新的时间间隔为298603(由时间间隔可以得到频率,因此隐含公开了抓取频率),以降低无谓抓取请求;如果发现job的当前间隔基数保证了50%以上轮次可以抓取到更新,则不调整(时间间隔调整关系所基于的时间段:昨天和今天,相当于,确定与当前时间段存在对应关系的历史时间段的抓取频率);
以抓取http://www.21chh.com/channel/review/为例,抓取系统的实时抓取模块的线上运行步骤如下:步骤2,job解析获取抓取属性;4)抓取间隔基数是298603毫秒;5)抓取时间范围是一天的1点到8点;步骤7,抓取频率调整,根据此job的抓取间隔基数298603毫秒,如果本轮次抓取到更新,则减少下一轮次的抓取时间间隔0.2倍;如果本轮次没有抓取到更新,则增加下一轮次的抓取时间间隔0.2倍,但是保证时间间隔是job的抓取间隔基数的 [0.5,2]倍数(相当于,对于一时效性种子页,获取当前时间段内对所述种子页发起的每次抓取对应的频率调整因子)范围内(本轮次及下一轮次的抓取时间间隔存在倍数相乘调整关系,单次或多次相乘的结果相当于,基于所述频率调整因子计算频率调整系数;而在步骤2中从日志中抓取昨天的历史时间间隔基数,结合步骤7的抓取频率调整,整体相当于,根据所述抓取频率以及所述频率调整系数,动态调整所述当前时间段的抓取频率)。
线上运行时,对于时间间隔进行判定,查询此job的抓取间隔基数298603毫秒,如果本轮次抓取到更新,则减少下一轮次的抓取时间间隔0.2倍;如果本轮次没有抓取到更新,则增加下一轮次的抓取时间间隔0.2倍,如果时间间隔指定下一次抓取时间大于当前时间,则将不抓取(相当于,基于所述动态调整后的抓取频率在所述当前时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔)。
权利要求1的技术方案与对比文件1公开的技术方案相比,其区别技术特征为:1、将一天划分为若干个平均的预设时间段,任一预设时间段和与其对应的历史预设时间段分属当日和前一日的同一时段,所述方法针对任一预设时间段均进行相应的处理;2、判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子,并且节假日因子作为动态调整当前预设时间段的抓取频率的考虑因素;3、确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率,根据所述历史预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;4、所述当前预设时间段内对所述种子页已经发起的抓取次数为n;所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于n次抓取中的任一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;所述基于所述频率调整因子计算频率调整系数具体为:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数。
基于上述区别技术特征,权利要求1实际解决的技术问题是:如何更精准地对种子页面进行抓取。
对于区别技术特征2,对比文件1公开了一种自动优化爬虫的抓取方法,并公开了如下技术特征(参见说明书第3页第3段、第4页第3段):抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。如果当前时间为晚上或节假日,可能由于网络原因或是处于休息时间的原因,链接质量或者索引列表页的更新频率会降低,但这并不能代表常态下,如工作日的白天,该索引列表页的链接质量或者更新频率,所以抓取检测模块在上一次爬虫对该频道的抓取频率值上乘以一个ftime(t)系数,用来将再次抓取这个索引列表页的频率的降低幅度减缓,以使该频率值更接近实际情况(相当于,确定节假日因子),在所属技术领域,节假日与工作日存在着对应关系,工作日和节假日之间的切换只有两种方式,当前为工作日,该工作日的前一日为节假日以及当前为节假日,该节假日的前一日为工作日,因此在对比文件1已经公开的根据当前时间来确定节假日因子,以调整抓取频率的基础上,本领域技术人员容易想到,还可以根据节假日与工作日之间的切换情况来确定节假日因子,这是本领域的常用技术手段,属于本领域的公知常识。
对于区别技术特征1、3和4,权利要求1明确限定了将一天划分为多个平均的预设时间段,任一预设的时间段和与其对应的历史预设时间段分属当日和前一日的同一时段,而对比文件3中当前时间段是今天一天,对应的历史时间段是昨天一天,两者执行抓取的时间粒度是不同的。本申请中,针对任一预设时间,当前预设时间段的抓取频率是以对应的历史预设时间段的抓取频率作为基数,再根据频率调整系数以及节假日因子,来动态调整当前预设时间段的抓取频率,同一时段的抓取频率只和对应的历史同一时段的抓取频率有关联,不受当天不同时段的影响,也不受昨天不同时段的影响,是一种同一时段影响的调整策略,而对比文件3中每个轮次的抓取时间间隔都是在上一轮的抓取时间间隔基础上以相应的固定倍数更新,其每个轮次的抓取频率都受到当天该轮次之前所有轮次的抓取结果的影响,还受昨天一天的抓取结果的影响,是一种连续时间上的递进式影响的调整策略,因此,两者在调整策略上也有本质的区别。此外,本申请中频率调整系数是动态变化的,频率调整系数为当前预设时间段内对种子页已经发起的n次抓取对应的频率调整因子的乘积,n次中任一次的频率调整因子是根据该次抓取前一段预设时间内发现新链接的次数和发起次数的比率动态确定的,因此每次抓取的频率调整因子是不一样的,这样计算得到的频率调整因子更为精确,而对比文件3中一天每个轮次的抓取时间间隔均是在上一轮的抓取时间间隔基础上以相应的固定倍数。上述区别技术特征没有被对比文件1所公开,也不属于本领域的公知常识,现有技术没有给出将上述区别技术特征应用到对比文件3以解决其技术问题的启示。
基于上述区别技术特征,权利要求1的技术方案能够在种子页的抓取过程中,通过对一天进行时间段的细分,基于同一时段种子页抓取的强相关性,以历史同一时段的抓取频率作为调整基数,再根据实际的抓取情况,动态地调整频率调整因子,使得对种子页抓取频率的调整更符合实际情况,提高了抓取的效率和准确性。
因此,权利要求1的技术方案相对于对比文件3、对比文件1和本领域的公知常识的结合具备突出的实质性特点和显著的进步,符合专利法第22条第3款关于创造性的规定。
从属权利要求2-6直接或间接引用权利要求1,在权利要求1具备创造性时,权利要求2-6也具备专利法22条第3款规定的创造性。
2.2关于权利要求7-12
权利要求7-12是与方法权利要求1-6相对应的装置权利要求。因此,基于相同的证据和理由,权利要求7-12也具备专利法第22条第3款规定的创造性。
3、对原审查部门的驳回决定相关意见和前置审查意见的评述
合议组认为:
修改后的权利要求1与对比文件3相比,权利要求1明确限定了将一天划分为多个平均的预设时间段,任一预设的时间段和与其对应的历史预设时间段分属当日和前一日的同一时段,而对比文件3中当前时间段是今天一天,对应的历史时间段是昨天一天,两者执行抓取的时间粒度是不同的。本申请中,针对任一预设时间,当前预设时间段的抓取频率是以对应的历史预设时间段的抓取频率作为基数,再根据频率调整系数以及节假日因子,来动态调整当前预设时间段的抓取频率,同一时段的抓取频率只和对应的历史同一时段的抓取频率有关联,不受当天不同时段的影响,也不受昨天不同时段的影响,是一种同一时段影响的调整策略,而对比文件3中每个轮次的抓取时间间隔都是在上一轮的抓取时间间隔基础上以相应的固定倍数更新,其每个轮次的抓取频率都受到当天该轮次之前所有轮次的抓取结果的影响,还受昨天一天的抓取结果的影响,是一种连续时间上的递进式影响的调整策略,因此,两者在调整策略上也有本质的区别。此外,本申请中频率调整系数是动态变化的,频率调整系数为当前预设时间段内对种子页已经发起的n次抓取对应的频率调整因子的乘积,n次中任一次的频率调整因子是根据该次抓取前一段预设时间内发现新链接的次数和发起次数的比率动态确定的,因此每次抓取的频率调整因子是不一样的,这样计算得到的频率调整因子更为精确,而对比文件3中一天每个轮次的抓取时间间隔均是在上一轮的抓取时间间隔基础上以相应的固定倍数。权利要求1的技术方案能够在种子页的抓取过程中,通过对一天进行时间段的细分,基于同一时段种子页抓取的强相关性,以历史同一时段的抓取频率作为调整基数,再根据实际的抓取情况,动态地调整频率调整因子,使得对种子页抓取频率的调整更符合实际情况,提高了抓取的效率和准确性。
同时,上述区别也不属于本领域的公知常识。修改后的权利要求1具备创造性;基于类似的理由,修改后的权利要求7也具备创造性。
至于本申请是否存在其他不符合专利法及其实施细则的缺陷,留待原审查部门继续审查。
基于上述理由,合议组作出如下决定。
三、决定
撤销国家知识产权局于2018年04月09日对本申请作出的驳回决定。由国家知识产权局原审查部门以下述文本为基础继续进行审批程序:
复审请求人于2019年02月12日提交的权利要求第1-12项;
复审请求人于2013年12月02日提交的说明书第1-118段,
复审请求人于2013年12月02日提交的说明书附图图1-3;
复审请求人于2013年12月02日提交的摘要;
复审请求人于2013年12月02日提交的摘要附图。如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人可以自收到本决定之日起三个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。