
发明创造名称:机器型论坛水军的识别方法及装置
外观设计名称:
决定号:181117
决定日:2019-06-14
委内编号:1F269714
优先权日:
申请(专利)号:201710667699.0
申请日:2017-08-07
复审请求人:合肥工业大学
无效请求人:
授权公告日:
审定公告日:
专利权人:
主审员:袁翠
合议组组长:杨红丽
参审员:张鑫
国际分类号:H04L29/08,H04L12/58
外观设计分类号:
法律依据:专利法第22条第3款
决定要点
:如果权利要求与一篇对比文件的区别特征的一部分被其它对比文件公开,其余部分是本领域的惯用手段,则认为在该对比文件的基础上结合其它对比文件以及本领域的惯用手段得到该权利要求请求保护的技术方案是显而易见的,该权利要求不具备创造性。
全文:
本复审请求涉及申请号为201710667699.0,名称为“机器型论坛水军的识别方法及装置”的发明专利申请(下称本申请)。申请人为合肥工业大学。本申请的申请日为2017年08月07日,公开日为2017年11月07日。
经实质审查,国家知识产权局实质审查部门于2018年09月05日发出驳回决定,以权利要求1-2不具备专利法第22条第3款规定的创造性为由驳回了本申请。驳回决定中引用三篇对比文件,为:对比文件2,CN103617235A,公开日为2014年03月05日;对比文件3,CN102571484A,公开日为2012年07月11日;对比文件4:一种网络论坛水军账号快速检测算法,《湖南大学学报(自然科学版)》,陈桂茸等,公开日为2015年04月30日。驳回决定所依据的文本为:申请人于申请日2017年08月07日提交的说明书第1-81段(即第1-9页),说明书附图第1-2页,说明书摘要以及摘要附图;于2018年08月20日提交的权利要求第1、2项。驳回决定所针对的权利要求书的内容如下:
“1.一种机器型论坛水军的识别方法,其特征在于,包括:
步骤A、获取论坛内所有用户行为特征的原始数据,基于用户的交互回应数据将符合过滤条件之外的用户作为识别群体,其中,所述交互回应数据为用户回复已有的回复贴的回复数据;
步骤B、计算所述识别群体中任意用户在同一分钟内的发帖频次,记录所述识别群体中发帖频次大于第一预设阈值的用户;
步骤C、基于所述识别群体挖掘出在同一分钟内出现的频次大于第二预设阈值的用户;
步骤D、将发帖频次大于第一预设阈值的用户及在同一分钟内出现的频次大于第二预设阈值的用户记为机器型水军;
所述步骤C还包括:
获取识别群体在一时间段内的历史数据,基于所述历史数据筛选出在同一分钟内出现的频次大于5的多个用户ID;
基于所述历史数据筛通过频繁项集挖掘算法筛选在同一分钟内多次出现用户ID组;获取所述用户ID群组中在同一分钟内出现的频次大于5的多个用户ID;
所述步骤A包括:从所述原始数据中获取用户的交互回应数据,筛选出交互回应数据的个数大于5的用户ID;
将所述交互回应数据的个数大于5的用户ID从原始数据中分离出后的剩余用户ID作为识别群体;
获取所述识别群体中所有用户ID及关联所述用户ID的发帖时间,基于所述发帖时间计算在同一分钟内发帖次数大于30的用户ID;
记录所述用户ID,将所述用户ID存储为机器型水军用户。
2.一种机器型论坛水军的识别装置,其特征在于,包括:
获取模块,用于获取论坛内所有用户行为特征的原始数据,基于用户的交互回应数据将符合过滤条件之外的用户作为识别群体,其中,所述交互回应数据为用户回复已有的回复贴的回复数据;
计算模块,用于计算所述识别群体中任意用户在同一分钟内的发帖频次,记录所述识别群体中发帖频次大于第一预设阈值的用户;
标记模块,用于基于所述识别群体挖掘出在同一分钟内出现的频次大于第二预设阈值的用户;
识别模块,用于将发帖频次大于第一预设阈值的用户及在同一分钟内出现的频次大于第二预设阈值的用户记为机器型水军;
所述标记模块还包括:
标记子单元,用于获取识别群体在一时间段内的历史数据,基于所述历史数据筛选出在同一分钟内出现的频次大于5的多个用户ID;
挖掘单元,用于基于所述历史数据通过频繁项集挖掘算法筛选在同一分钟内多次出现用户I D组;获取所述用户ID群组中在同一分钟内出现的频次大于5的多个用户ID;
所述获取模块包括:
第一获取子单元,用于从所述原始数据中获取用户的交互回应数据,筛选出交互回应数据的个数大于5的用户I D;
第二获取子单元,用于将所述交互回应数据的个数大于5的用户I D从原始数据中分离出后的剩余用户ID作为识别群体;
所述计算模块包括:
计算子单元,用于获取所述识别群体中所有用户I D及关联所述用户I D的发帖时间,基于所述发帖时间计算在同一分钟内发帖次数大于30的用户ID;
记录单元,用于记录所述用户ID,将所述用户ID存储为机器型水军用户。”
驳回决定的主要理由是:1、独立权利要求1相对于对比文件4的区别在于:过滤条件不同,本申请的过滤条件为用户的交互回应数据、用户的发帖频次、用户的出现频次。然而,对比文件2公开了基于用户的交互回应数据来区分水军和正常用户;对比文件3公开了根据用户在同一分钟内的发帖频次和用户ID出现的次数来识别其是否为水军。即上述区别特征的一部分已被对比文件2、对比文件3公开,上述区别特征的其余部分属于本领域的惯用手段。由此可见,在对比文件4的基础上结合对比文件2、对比文件3和本领域的惯用手段得到权利要求1的技术方案对本领域技术人员来说是显而易见的。因此,权利要求1不具备专利法第22条第3款规定的创造性。2、权利要求2是和权利要求1的方法权利要求相对应的产品权利要求,由在前评述可知,权利要求1不具有创造性。此外,在已知方法的基础上设置相应模块来实现方法属于本领域公知常识。因此,在对比文件4的基础上结合对比文件2-3和公知常识以获取权利要求2所要求保护的技术方案,对于本领域技术人员来说是显而易见的。因此,权利要求2不具备专利法第22条第3款规定的创造性。
申请人(下称复审请求人)对上述驳回决定不服,于2018年12月20日向国家知识产权局提出了复审请求,未对申请文件进行修改。复审请求人主要认为:对比文件4没有公开筛选掉低可疑用户,筛选出高可疑用户,仅公开了筛选掉低可疑数据,筛选出高可疑数据,对比文件4的处理对象、处理方法、处理结果和本申请不同,二者要解决的技术问题也不同,且权利要求1是通过筛选用户得出识别群体(用户),然后通过频繁项集挖掘算法筛选机器型水军,而对比文件4是过滤某时段的数据来减少数据量,没给出识别群体(用户)的选择方法;对比文件2采用粒子群算法,与本申请所使用的方法不同;对比文件3涉及微博水军检测,与本申请论坛水军检测的技术领域不同,数据处理方式也不同;且对比文件2-4不具有结合启示。
经形式审查合格,国家知识产权局于2018年12月28日依法受理了该复审请求,并将其转送至实质审查部门进行前置审查。
实质审查部门在前置审查意见书中坚持驳回决定。
随后,国家知识产权局成立合议组对本案进行审理。
合议组于2019年03月05日向复审请求人发出复审通知书,所针对的文本与驳回决定所针对的文本相同,所引用的对比文件与驳回决定中相同,即对比文件2、对比文件3和对比文件4,并指出:权利要求1和2相对于对比文件4、对比文件2、对比文件3及本领域的惯用手段的结合不具备专利法第22条第3款规定的创造性。并针对复审请求人的意见指出:在对比文件4公开的根据水军特征进行三次过滤的方案的基础上,本领域技术人员有动机采取对比文件2、对比文件3所公开的特征作为论坛水军识别操作中的过滤条件,并根据具体需求设置相应的过滤规则,执行多次过滤操作以获得水军账号,以得到本申请要求保护的技术方案。在对比文件4的基础上结合对比文件2、对比文件3以及本领域的惯用手段以获得该权利要求所要求保护的技术方案,对于本领域技术人员来说是显而易见的。
复审请求人于2019年04月22日提交了意见陈述书,未对申请文件进行修改。复审请求人主要认为:(1)对比文件4公开了3次过滤,其中第1次过滤是为了将不可能发生网络炒作的时段排除,第2次过滤是为了将大规模用户协作的时段排除,第3次过滤才是判断网络水军。也就是说,对比文件4的技术方案在前两次过滤是针对时段的,是为了排除网络炒作时段和大规模协作时段的影响,目的是筛选掉指定规则下某个时段下的数据来缩小计算范围。本申请权利要求1中 3次过滤的目的均是选择出识别群体来减少数据处理,由此可见,至少在前两次过滤,对比文件4的处理对象、处理方法和处理结果和本申请权利要求1是完全不同的,二者要解决的技术问题也是完全不同。(2)本申请与对比文件3的技术领域不同;对比文件3适用于微博水军检测领域,其与论坛不同;二者涉及的数据维度是不同的,二者的用户行为特征是完全不同的,所采集到的原始数据也是不同的,针对数据的处理方式也是不同的。(3)对比文件2与本申请均针对论坛型水军用户的共性提出了水军检测方法,但两者所采用的方法不同。对比文件2中“如果同一ID出现的次数来MID>Mmax=l%,则对该ID进行检测”,同一ID出现的次数只是作为检测触发的判据,而本申请中是“将发帖频次大于第一预设阈值的用户及在同一分钟内出现的频次大于第二预设阈值的用户记为机器型水军”,即是在进行完之前的多个处理与判断步骤后,作为水军确定的判据。二者在整个方案中的执行顺序是不同,针对的判断群体也是不同的,最终得到结果也是不同的。且对比文件2所采用的方法依赖于复杂的粒子群算法,其所收集的数据与向量指标均与本申请不同。即对比文件2未公开本申请的技术方案,其相对于本申请而言更繁琐,基于对比文件2所公开的技术方案根本不可能得出本申请的技术方案。因此,对比文件2-4不能够得出本申请的整体技术方案,也无法向本申请技术方案提供技术启示。
在上述程序的基础上,合议组认为本案事实已经清楚,可以作出复审请求审查决定。
二、决定的理由
(一)审查文本的认定
复审请求人在复审请求阶段未对申请文件进行修改。本复审请求审查决定依据的审查文本为:复审请求人于申请日2017年08月07日提交的说明书第1-9页,说明书附图第1-2页,说明书摘要以及摘要附图;于2018年08月20日提交的权利要求第1、2项。
(二)关于专利法第22条第3款
专利法第22条第3款规定:创造性,是指与现有技术相比,该发明具有突出的实质性特点和显著的进步,该实用新型具有实质性特点和进步。
本复审请求审查决定所引用的对比文件与复审通知书以及驳回决定中引用的对比文件相同,即对比文件2,CN103617235A,公开日为2014年03月05日;对比文件3,CN102571484A,公开日为2012年07月11日;对比文件4:一种网络论坛水军账号快速检测算法,《湖南大学学报(自然科学版)》,陈桂茸等,公开日为2015年04月30日。
权利要求1、2不具备专利法第22条第3款规定的创造性。
1、权利要求1请求保护一种机器型论坛水军的识别方法,对比文件4公开了一种网络论坛水军账号快速检测算法,并公开了以下特征(参见对比文件4的第3章):本文研究网络论坛中网络炒作任务的网络水军账号的快速检测问题;本算法采用“层层逼近,逐步求精”的策略,利用人类行为统计分析、社会网络结构分析、时间特征分析技术分3次排除正常用户和数据,不断缩小计算范围,最终确定网络水军账号。首先统计论坛单日回帖数、日人均回帖数和日帖均回复数,将不可能发生网络炒作的时段排除;然后对可疑区间构建单日用户协作网络,排除没有发生大规模用户协作现象的时段,进一步缩小计算范围;最后对高可疑数据,通过用户回复行为的时间特性分析,判定其是否为网络水军。图1示出了算法流程,数据集包括用户列表、主贴列表和回帖列表(相当于获取论坛内所有用户行为特征的原始数据),将数据集经第一次过滤得出可疑数据,包括可疑用户、可疑主贴、可疑回帖;经第二次过滤得出高可疑数据,包括高可疑用户、高可疑主贴、高可疑回帖;经第三次过滤得出水军数据,包括水军账号、炒作主贴和炒作回帖(即公开了根据过滤条件经过三次过滤最终得到水军数据)。
权利要求1相比于对比文件4的区别特征在于:过滤条件不同,本申请的过滤条件为用户的交互回应数据、用户的发帖频次、用户的出现频次。
基于上述区别,本申请实际要解决如何设置论坛水军识别规则的技术问题。
对比文件2公开了一种基于粒子群算法的网络水军账号识别方法及系统,并公开了以下特征(参见对比文件2的说明书第[0119]-[0121]、第[0140]-[0142]段):社交论坛中的网络水军存在几个特点:用户账号短;在线时长短;与其他用户的联系程度低;发帖时间集中且有规律;与其他用户几乎不交互。正常网民在论坛中会与其他网民就某个问题进行发回帖交互,而网络水军只负责对特定主题发布特定内容的帖子,回帖解释并不在他们工作范围内,所以此类水贴很少对回复贴进行处理。水军只负责对特定主题发特定内容的帖子,而不会像正常网民一样与其他网民就某个问题进行发回帖交互,利用这一特点,也可以将正常网民和水军进行区分。引入回帖频率度量指标,通过用户回应别人提问的次数与此用户总帖数的比值,来表示此用户所发帖子中,与其他人交流的帖子所占到的比重。当某个用户回帖频率度量指标较低时,可以推测其与其他用户的交流很少,则该用户是水军用户的可能性就比较大(相当于基于用户的交互回应数据将符合过滤条件之外的用户作为识别群体,其中所述交互回应数据为用户回复已有的回复贴的回复数据)。由此可见,对比文件2公开了基于用户的交互回应数据来区分水军和正常用户,且其在对比文件2中所起作用与该特征在本申请中所起作用相同,用于根据用户之间的交互数据筛选网络水军。
对比文件3公开了一种检测网络水军以及找到网络水军的方法,并公开了以下特征(参见对比文件3的说明书第[0021]-[0056]段):帐号发帖频率异常;遍历帐号所有微博,获取其发表时间,如果在任何一段时间内(至少1分钟)发帖频率F>Fmax=6条/min,则判断满足机器人特征(相当于计算用户在同一分钟内的发帖频次,识别发帖频次大于第一预设阈值的用户)。利用检测出来的机器人帐号找到更多的机器人帐号和水军,具体为:在获得大量机器人账号以后,可以遍历每个帐号的所有微博,储存转播和评论该帐号微博的所有帐号的ID。则对于该机器人帐号来说,如果某帐号的出现次数Nid与该机器人帐号微博总数N的比值Nid/N>10%,那么对该ID进行检测是否为机器人帐号。对于所有机器人帐号获得它们的关注信息和评论信息,存储所有该帐号评论和转发的ID;如果同一ID出现的次数Mid>Mmax=1%,则对该ID进行检测。即对比文件3公开了根据用户在同一分钟内的发帖频次和用户ID出现的次数来识别其是否为水军,且其在对比文件3中所起作用与该特征在本申请中所起作用相同,用于根据用户的发帖及互动的活跃度识别水军。
也就是说,对比文件2和对比文件3已经公开了区别特征中的部分过滤条件。机器型水军通常会在设定的同一时间同时发帖,通过挖掘同一分钟内出现的频次大于某阈值的多个用户,以将其识别为机器型水军,属于本领域的惯用手段。根据需要合理地设置用户交互回应数据的判断阈值、用户发帖频次的阈值和用户出现频次的阈值,以执行水军识别操作,这是本领域的常规选择。此外,频繁项集挖掘算法是数据挖掘领域常用的挖掘算法,属于本领域的惯用手段,采用该算法来筛选目标数据是本领域的常规操作。在面对设置论坛水军识别具体操作规则的问题时,本领域技术人员有动机选择对比文件2和对比文件3所公开的特征作为论坛水军识别操作中的过滤条件,并根据实际需求设置具体的过滤规则,来执行论坛水军识别操作。
由此可见,在对比文件4的基础上结合对比文件2、对比文件3以及本领域的惯用手段以获得该权利要求所要求保护的技术方案,对于本领域技术人员来说是显而易见的。因此,该权利要求不具备专利法第22条第3款规定的创造性。
2、权利要求2是与权利要求1的方法权利要求相对应的产品权利要求,由在前评述可知,权利要求1不具有创造性。设置相应模块来实现方法属于本领域的惯用手段。因此,在对比文件4的基础上结合对比文件2、对比文件3以及本领域的惯用手段以获取权利要求2所要求保护的技术方案,对于本领域技术人员来说是显而易见的。因此,权利要求2不具备专利法第22条第3款规定的创造性。
(三)对复审请求人相关意见的答复
针对复审请求人陈述的意见,合议组认为:
首先,对比文件4公开了利用人类行为统计分析、社会网络结构分析、时间特征分析技术分3次排除正常用户和数据,不断缩小计算范围,最终确定网络水军账号;具体地,通过论坛单日回复行为统计分析进行第1次过滤,通过用户单日回复模式分析进行第2次过滤,通过用户回复行为时间特性分析进行第3次过滤,最终获得水军账号,即对比文件4已经公开了设置不同的过滤条件,多次过滤得出水军用户,且对比文件4也是为了快速检测网络论坛中的网络水军账号,要解决的技术问题与本申请相同。而本申请的构思即为设置不同的过滤条件进行多次过滤,对比文件4公开了与本申请同样的发明构思,而过滤条件的具体设置在其他对比文件中公开。
其次,对比文件3公开了根据用户在同一分钟内的发帖频次和用户ID出现的次数来识别其是否为水军,即本申请中的“计算识别群体中任意用户在同一分钟内的发帖频次,识别发帖频次大于第一预设阈值的用户”,而机器型水军通常会在设定的同一时间同时发帖,通过挖掘同一分钟内出现的频次大于某阈值的多个用户,以将其识别为机器型水军,属于本领域的惯用手段。尽管对比文件3的方案应用于微博水军领域,但其公开的识别方法能够应用于识别论坛水军,这是本领域技术人员容易想到的,并不需付出创造性劳动。
再次,复审请求人所争辩的关于根据同一ID出现的次数进行检测等相关特征是对比文件3公开的,并非对比文件2公开的内容。对比文件2公开了基于用户的交互回应数据来区分水军和正常用户,即本申请中的“基于用户的交互回应数据将符合过滤条件之外的用户作为识别群体,其中所述交互回应数据为用户回复已有的回复贴的回复数据”。尽管对比文件2采用的是粒子群算法,但其公开了将用户之间的交互作为识别水军的过滤条件,给出了基于用户之间的交互数据筛选网络水军的启示。
基于上述理由,在对比文件4公开的根据水军特征进行三次过滤的方案的基础上,本领域技术人员有动机采取对比文件2、对比文件3所公开的特征作为论坛水军识别操作中的过滤条件,并根据具体需求设置相应的过滤规则,执行多次过滤操作以获得水军账号,以得到本申请要求保护的技术方案。在对比文件4的基础上结合对比文件2、对比文件3以及本领域的惯用手段以获得该权利要求所要求保护的技术方案,对于本领域技术人员来说是显而易见的。
综上所述,合议组对于复审请求人的意见不予支持。
三、决定
维持国家知识产权局于2018年09月05日对本申请作出的驳回决定。
如对本复审请求审查决定不服,根据专利法第41条第2款的规定,复审请求人自收到本决定之日起3个月内向北京知识产权法院起诉。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。