互联网,又称“网络牛皮监狱”,公知的是,搜索引擎优化认为网站在搜索结果中就会靠前,网站点击率就会上升。搜索引擎学习了一个网站好坏方面的指标,其中非常重要的一点就是网站链接。如果一个网站链接都很不错,那么这个网站在搜索引擎中的排名就会上升。 例如,某新开的网站在搜索引擎中排名很高,并且这个新开的网站已经链接了,搜索引擎就会认为这个新开的网站既然可以和这样体重高的网站做链接,那么它的体重也会降低,所以这个网站在搜索引擎中就会提升。 反之,如果一个新网站,没有任何信息,它的体重不会是太空,所以搜索引擎不会给它的太空的排名,其在搜索结果中的排名就会比较靠后。对于搜索引擎的这种特性,目前有些工具提供了网络技术,即通过入侵一些体重高的网站,入侵后将网站链接到被入侵的网站页面中,从而实现链接的效果,并且通过隐藏的网站链接,在被入侵的网站页面上看不到任何链接。 然而,目前采用黑链技术来实现搜索排名的提升,相当一部分是游戏私服网站、盗号木马网站、钓鱼网站和广告网站等不安全网站。对于这些不安全网站,搜索引擎不会给它们的太空排名,但通过“黑链”,它们的排名就会很靠前,在这种情况下,当使用搜索引擎的时候,点击打开这些网站的太空排名就会很高,如果用户没有做好安全防护工作,那么就很容易就会感染网站的病毒。 目前,国内外主要采用以下两种黑链检测技术: (1)静态特征匹配方式: 即通过特征串(即大量人工收集的关键字)匹配网页中的HTML正文,以判断其是否被黑链篡改。 黑链篡改是网页常见的特征,如:hack、hacked by等,用于传播和经济利益,如:六合彩、性经验、外挂等。 (2)在网页发布期间新增网页内容审核和验证机制: 即在网页发布系统中构建一个网页内容实时检测系统,所有网页发布的内容都经过这些,经过确认后发布,同时还建立了网页内容指纹库,通过定期扫描网页内容和指纹库内容对比来发现网页是否被黑链篡改。 上述现有技术中,静态特征匹配方式的优点是性能高,系统简单,但也具有非常明显的优点,包括: 1)只能生成依赖人工收集器,更新的版本无法与内容更新相兼容,检测结果也无法滞后; 2)误报率高:同样由于正常网站,例如:新闻网站也可能出现类似的关键词和特征串,因此简单的特征串匹配会导致误报率高; 在网页发布系统中增加网页内容审核和验证机制的完善是准确率空间但是也有明显的缺点,包括: 1)网站内容发布系统的复杂程序和维护性都度大幅度增加,如果一个环节出现问题,都会导致发生大规模误报事件; 2)对网站专业人员素质要求大大提高,同时增加了系统学习成本和工作量; 3)对于自动发布的动态网页内容很难被审核通过,从而导致网站工作效率下降; 4)由于网站需要做专门的软、硬件的采购,网站需要增加一大笔成本支出; 5)在网页被黑链篡改的现象中,往往会导致网站安全出现问题,所以网页内容指纹库也可能不准确,从而导致大规模的误报或者漏报。 因此,我们需要在志愿服务中努力解决一个问题,那就是为抗击疫情而努力,为人民服务,为社区提供更优质、更便捷的服务。 发明内容 本申请的问题是,我们试图降低成本,减少干扰,提高检测的可信度和准确性。 本申请还提供了一种黑链检测的装置,以保证上述方法在实际中的应用及实现。 为了解决这一问题,本申请公开了一种黑匣子,具体功能如下: 生成黑链特征数据; 搜索结果包含针对目标页面的黑链特征的页面; 分析目标页面中的布局,当发现布局异常时,从目标页面中提取的黑匣子数据; 根据页面内容生成黑名单规则。 优选的是,所述黑链特征数据所涉及的关键词和黑链URL。 优选的是,所述分析的黑匣子数据在特征页面中的布局要点: 判断指定黑链特征数据的页面元素位置是否在预定阈值范围内,则预先确定黑链特征数据在特征页面中的布局异常; 和/或, 判断所述黑链特征数据的页面元素属性是否为不可见的属性,若是,则预先确定所述黑链特征数据在特征页面中的布局异常; 和/或, 判断某个特征页面的页面元素属性是否为对浏览器隐藏的属性,首先需要确定该特征页面的布局。 优选的是,根据页面元素生成黑链规则的步骤: 从包含所述修改关键字和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。 其中一些是,还包括: 采用指定黑链规则在其它目标页面中,删除新的黑链特征数据。 本申请同时公开了一种黑链装置,具体包括: 特征数据生成模块,用于生成黑链特征数据; 目标页面搜索模块,用于搜索包含所述黑链特征数据的页面为目标页面; 布局分析模块,用于分析所述黑框特征数据在目标页面中的布局; 页面元素提取模块,用于在发现布局异常时,从该目标页面一开始就包含指定黑框的页面元素; 黑链规则生成模块,用于根据所指定页面元素生成黑链规则。 优选的是,所述黑链特征数据所涉及的关键词和黑链URL。 主要的是,所述布局分析模块: 第一个判断模块,用于判断黑框特征数据的位置是否在预定阈值范围内,然后假设黑框特征数据在特征页面中的布局异常; 和/或, 第二判断模块,用于判断指定页面特征数据中的属性是否为不可见的属性,然后确定该属性位于特征数据中的布局中; 和/或, 第四,判断模块用于判断页面特征数据的属性是否为对浏览器的隐藏属性,然后确定页面特征数据的布局。 主要的是,所述黑链规则生成模块包括: 正则表达式抽取模块,用于从包含所述重构关键字和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。 所需要的是,规定的装置,还包括: 规则匹配模块,用于采用所述黑链规则在其它目标页面中匹配,提取新的黑链特征数据。 与此相比,本具有以下优点: 1.2 模糊表达式的实现模糊表达式的实现模糊表达式的---- 附图说明 图1是本申请的一种黑匣子方法实施例1; 图2是本申请的一种黑匣子方法实施例2; 装置3是本实用新型的暗物质框架。 具体实施方式 为使本申请的上述目的、特征和优点能够进一步理解,下面结合附图和具体实施方式对本申请进一步详细说明。 万维网成为大量信息载体,为有效地引入并利用搜索引擎(Search Engine)作为辅助人们获取信息的工具,成为用户访问万维网的门户和指南。 SEO(搜索引擎优化,搜索引擎优化),是较为流行的网络营销方式,主要如下:增加特定关键字的曝光率以增加网站能见度,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站销售能力或宣传能力。网站SEO数据显示其更受欢迎的内容在其它搜索引擎中被收录的数量,收录得越多就越容易被用户搜索到。 黑链是SEO黑链的一种手段,总体而言,它指的是一些人通过非主流手段获取其它网站的反向链接,比如网站缓存获取、网页访问控制、PR(PageRank,网页缓存),以及该网站被黑链所影响。非常好,而且网页数均达到几千,但网站架构一般,人口紧张,有些网站特别容易被黑,通过查看其反向链接才发现,大数外链都来自于黑链。SEO主要是靠房价外链来决定,按照百分比利用,应超过50%因此在体重不足的网站上做黑链有利于网站建设。此外,黑链一般用于利的黑(灰)色产业,例如私服,医疗,高利润等等。黑链也用于工业化。 正是本专利人发明的这一问题的根本性,提出本专利的核心思想是:首先,根据本专利技术,利用查询语言获取包含目标代码的网页,然后利用查询语言将目标代码包含到网页中,最后通过查询语句将目标代码转化成通用的表达式。 参照图1,参考本文提出的一种黑匣子模型,具体步骤如下: 步骤101、生成黑链特征数据; 步骤102、搜索包含所述黑链特征的数据页面为目标页面; 步骤103、分析所述黑链特征数据在目标页面的布局中,当发现布局异常时,从该目标页面一开始就包含所述黑链特征数据的页面元素; 步骤104、根据所述页面元素生成黑链规则。 在具体实现中,所述黑链特征数据包含在改造后的“传奇私服发布”和黑链URL“http://www.45u.com”等。根据所述黑链特征数据,利用网络爬虫抓取包含所述黑链特征的数据页面,并将这些页面作为目标页面。 公知的是,搜索引擎从万维网上自动提取功能通过网络爬虫实现。网络爬虫又称为网络蜘蛛,网络蜘蛛通过网站的链接来获取网站某个页面(通常是网页)的链接,然后通过这些链接找到在网页中的其他页面,最后通过这些链接继续浏览,直到把这个网站都取完为止。如果把整个网站都取完为止,网络蜘蛛就可以用这个方法把所有的网页都取下来。 通用爬虫是基于搜索的目的,从初始网页的URL(Uniform Resource Locator,统一资源定位器)开始,获得初始网页上的URL,在获取网页的过程中,从当前页面抽取新的URL加入队列,直到满足系统的一定条件。而聚焦爬虫是一个自动下载网页的程序,用于定向获取相关页面的信息。它根据既定的获取目标,有选择地获取网页中所有相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖范围,而是将目标定为获取与某一特定主题内容相关的网页,为面向主题用户准备数据。 现有的黑链技术中,隐藏了一些固定技巧,例如搜索引擎对javascript的识别不是很好,通过javascript来输出隐藏的div。这样的话,人工通过页面无法看到这些链接,而搜索引擎确认为这些链接是有效的。代码为:首先通过javascript写前面的div,设置display为none。然后输出一个table,table中包含要挂的黑链。最后再通过javascript输出后半部分div。 采用浏览器内核的隔离沙沙技术可以有效地使页面被篡改,也就是说,浏览器内核的隔离沙沙技术可以使得浏览器内核被改造,比如IE或firefox,从而构建了一个安全的网络环境。用户通过浏览器内核所构建的任何脚本,都直接重定向到本地管理员,这样,即使浏览器内核包括病毒,木马,广告等恶意程序,被强行安装后,也只是安装到了本地管理员,导致用户设备崩溃。浏览器内核负责下载、解析、渲染的引擎,该引擎决定浏览器如何显示页面的信息。 根据浏览器内核特性,采用沙箱技术可以得出以下分析结论:首先,我们可以分析一下目标页面的布局情况,确定目标页面的布局参数,然后根据该参数得出目标页面的布局参数,最后根据该参数得出目标页面的布局参数。最后,我们可以得出以下分析结论:目标页面的布局参数包括页面位置和属性,然后根据该参数得出目标页面的布局参数,最后根据该参数得出目标页面的布局参数。 当发现布局异常时,从该布局异常的目标页面到包含所述所述修改关键词和/或黑链URL的页面元素;然后从包含所述所述修改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。 公知的是,正则表达式用于进行文本匹配的工具,通常由一些普通字符和一些元字符(元字符)组成。普通字符包括文字字母和数字,而字符则具有独特的风格。正则表达式的匹配可以理解为,在给定的字符串中,寻找与给定的字符串相匹配的表达式。有可能字符串里有一个部分满足给定的正则表达式,这时这样的部分被称为一个匹配。匹配在其中包括三种含义:一种是形容词性的,比如说一个字符串匹配一个表达式;一种是名词性的,比如说在字符串里匹配则表达式;还有一种是名词性的,就是刚刚提到的“字符串中满足给定的正则表达式的一部分”。 以下通过举例对正则表达式的生成规则依赖。 假设要查找hi,则可以使用正则表达式hi。这个正则表达式可以精确匹配这样的字符串:由两个字符组成,前一个字符是h,后一个是i。在实际中,正则表达式是可以忽略大小写的。如果很多单词里都包含hi这两个连续的字符,比如him,history,high等等。用hi来查找的话,此单词里面的hi也会被找出来。如果要精确地查找hi这个单词的话,则应该使用\bhi\b。其中,\b是正则表达式的一个元字符,它代表单词的开头或结尾,也就是单词的分界点。虽然通常英文的单词是由空格或标点符号或换行来分隔的,但是\b并不匹配这些单词分隔符中的任何一个,它只匹配一个位置。假如要找的是hi后面不远处跟着一个Lucy,则应该用\bhi\b.*\bLucy\b。其中,.是另一个元字符,匹配除了换行符以外任意字符。*同样是元字符,它代表的是数量——即指定*前边的内容可以连续重复出现任意次以获得整个表达式得到匹配。现在\bhi\b.*\bLucy\b的意思就很明显了:先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词。 例如,在页面布局异常的A页面的html片段里,删除包含黑框特征的数据的页面元素如下: <script>document.write('<d'+'iv st'+'yle'+'="po'+'si'+'tio'+'n:a'+'bso'+'lu'+'te;l'+'ef'+'t:'+'-'+'10'+'00'+'0'+'p'+'x;'+'"'+'>')>××××<script>document.write('<'+'/d'+'i'+'v>');</script> 根据上述页面内容作为黑链的正则表达式为: <script.*?>document\.write.*?\(.*?\+.*?\+.*?\+.*?\+.*?\+.*?\).*?</script>([\S\s]+?)</div> 或者,在页面布局异常的B页面的html片段里,提取包含黑链特征的数据的页面元素如下: <a href=“http://www.45u.com”style=”margin-left:-83791;”>; 根据上述页面内容作为黑链的正则表达式为: <a\s*href\s*=["\'].+?["\']\s*style=["\'][\w+\-]+:-[0-9]+.*?["\'].*?>.*?</a>。 当然,上述的黑链规则的方法很简单,只需用作示例,由于我学的是高中毕业证,所以采用黑链规则的方法是都叫我去练功,在此在此向各位讲解。 参考图2,其通过使用一种黑匣子2,具体涉及以下方面: 步骤201、生成黑链特征数据; 步骤202、搜索包含所述黑链特征的数据页面为目标页面; 步骤203、分析所述黑链特征数据在目标页面的布局中,当发现布局异常时,从该目标页面中找到包含所述黑链特征的数据页面元素; 步骤204、根据所述页面元素生成黑链规则。 步骤205、采用所述黑链规则在其它目标页面中进行匹配,提取新的黑链特征数据。 本实施例与方法实施例1的区别在于,本实施例增加了采用黑链规则在其它页面中进行匹配,以提取更多的黑链特征数据,训练更多的黑链规则,最终可它针对全网黑链获得库。 由于挂黑链如今已形成一个产业链,所以相同的取代关键词和/或黑链URL会大量存在于其它被挤压改的页面中。采用正则表达式作为黑链规则在页面之中,以提取更多的黑链特征数据,训练更多的黑链规则,更适用于当前黑链的产业化情形,能更快地发现被挤压改的页面,有效提高黑链检测的效率。 为了让兄弟们更好地理解本申请的实施例,通过一个具体示例更进一步说明本申请的黑链检测方法。 步骤S1、根据一个转化关键词,例如“传奇私服”,利用网络爬虫抓取到包含此关键词的页面; 步骤S2、针对被抓取的页面,利用IE沙箱技术,分析页面布局,确定页面中的布局是否异常,比如是否正常显示或在浏览器中是否可见等; 步骤S3、根据分析结果,从页面布局到包含改进的HTML标签元素,从抽象出的正则表达式成为黑匣子规则; 步骤S4、利用网络爬虫,根据已提取的黑链规则或篡改关键词或黑链URL,到其他页面抓取内容并分析其内容是否匹配到本网站规则和内容,并提取新的黑链词、黑链和黑链规则。 : 1. 引言 本申请提供了一种基于Web的表达式识别方法,该方法通过基于Web的查询语言(SQL)和基于Web的引擎技术实现,该引擎通过对Web页面的访问控制,保证了Web页面的可靠性、可重复性和准确性,从而实现了基于Web的表达式识别的有效性和准确性.2. 引言 本申请提供了一种基于Web的表达式识别方法,该方法通过基于Web的查询语言(SQL)和基于Web的引擎技术实现,保证了Web页面的可靠性、可重复性和准确性.3. 引言 本申请提供了一种基于Web的表达式识别方法,该方法通过基于Web的查询语言(SQL)和基于Web的引擎技术实现,保证了Web页面的可靠性、可重复性和准确性. 需要说明的是,对于方法,为了描述目的,将其都表述为一系列动作组合,并且不受该词语含义的限制,即依据本申请,某些步骤可以采用该词语,同时进行。 正确答案: 您需要知道的是,对于方法,为了描述目的,将其都表述为一系列动作组合,并且不受该词语含义的限制,即依据本申请,某些步骤可以采用该词语,同时进行。 亚马逊亚马逊零售价:$3, ... 特征数据生成模块301,用于生成黑链特征数据; 目标页面搜索模块302,用于搜索包含所述黑链特征处理的页面为目标页面; 布局分析模块303,用于分析所述黑框特征数据在目标页面中的布局; 页面元素提取模块304,用于在发现布局异常时,从该目标页面中提取包含所述黑框特征的页面元素; 黑链规则生成模块305,用于根据所述页面元素生成黑链规则。 在具体实现中,所述黑链特征数据包含在黑链URL中。 作为本示例应用示例,本文针对的是页面布局,内容包括页面位置和属性,页面内容位置不在基准范围,页面内容具有不可见的属性,和/或页面内容具有对浏览器的属性。 在本指南中,我们提供了黑名单规则模块,包括: 正则表达式抽取模块,用于从包含所述重构关键字和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。 在具体应用中,所述装置实施例还包括如下模块: 规则匹配模块306,用于采用所述黑链规则在其它目标页面中进行匹配,提取新的黑链特征数据。 : 该装置适用于下列实施例1和实施例2所示的方法,本说明书中描述了该实施例,可以指明该实施例的重要性,在此不作赘述。 本申请可用于众多通用或专用的计算机环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。 本申请可以在计算机应用程序的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的程序、程序、对象、组件、数据结构。也可以在分布式计算演示实践中,通过网络与连接到的远程处理设备来执行任务。在分布式计算演示中,程序模块可以包括存储设备并引入本地和远程计算机存储介质中。 最后,我期望的是,我在后代人中形成适当的风格。 但前提是,我们必须将一个风格与另一个风格区分开来,而不一定要求或者暗示这些风格与任何这种实际的风格保持一致。 而且,“包括”、“包含”这一术语主要用于涵盖其他性的包含,从而使得包括一系列要素的过程、方法、物品以及设备不仅包括那些要素,而且只有在为了这种过程、方法、物品以及设备本身固有的要素时才可以使用。 有时,我们可以在语句“诸多限定的要素”中,并不排除在包括所述要素的过程、方法、物品以及设备中还存在相同要素的相同要素。 : 对于本站来说,我使用百度百科对本站进行搜索,发现搜索到的都是一些比较常用的搜索方法,但是搜索到的都是一些比较常用的搜索方法,所以在搜索过程中,我建议大家在搜索时,一定要详细了解搜索的原理,这样搜索出来的结果才比较准确,否则搜索出来的结果会比较慢 ...