舍力自己也用采集器采集过文章的,所以对网站防采集有一些心得体会,今天就给大家分享一些采用动态不规则的html标签防止采集的方法
随机代码:
<?php echo dechex(rand(1,888888));?>
舍力分析:如果css中用[.sheli]来确定参数,那么<div class="sheli">与<div class="slsj sheli">对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了,如果每次页面的html标签内空格数随机,那么采集规则 就失效了。但是,这对搜索引擎爬虫没多大影响。
操作方法:将循环的div中calss最前面加入随时代码,
要注意空格;例如
<div class="<?php echo dechex(rand(1,888888));?> sheli">
适合网站:所有PHP动态且不想遵守网页设计规范的网站。
温馨提示:
舍力提供的这个方法也只是给采集器增加一些困难,高手还是能采集到你网站的数据的。
End
温馨提示:如果您对本文有疑问,请在本页留言即可!!!
留言/评论:◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。