当前位置:首页 » 代码教程 » 防止火车头等采集器采集的一些简单方法分享

防止火车头等采集器采集的一些简单方法分享

舍力自己也用采集器采集过文章的,所以对网站防采集有一些心得体会,今天就给大家分享一些采用动态不规则的html标签防止采集的方法

随机代码:
<?php echo dechex(rand(1,888888));?>

舍力分析:如果css中用[.sheli]来确定参数,那么<div class="sheli">与<div class="slsj sheli">对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了,如果每次页面的html标签内空格数随机,那么采集规则 就失效了。但是,这对搜索引擎爬虫没多大影响。 

操作方法:将循环的div中calss最前面加入随时代码,要注意空格;例如
<div class="<?php echo dechex(rand(1,888888));?> sheli">

适合网站:所有PHP动态且不想遵守网页设计规范的网站。

温馨提示:舍力提供的这个方法也只是给采集器增加一些困难,高手还是能采集到你网站的数据的。
End
温馨提示:如果您对本文有疑问,请在本页留言即可!!!
觉得很赞 (1)付款方式
X
付款方式:
  • 微信
  • 支付宝
  • QQ红包

使用微信扫一扫
blogger
    发布日期:2018-05-04   所属类别:代码教程   浏览:9385次   评论:6次
    本文地址:http://www.shuyong.net/chengxu/1028.html [ 百度已收录 ]
    声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!

留言/评论:◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

填写好QQ号码,任点空白处自动获取

昵称

邮箱

网址

5楼、无毒蝎子 [回复该留言]
2018-08-16 04:48
没啥乱用,火车头也可以正则匹配,你写半天,我一个规则就搞定了
舍力 [回复该留言]
2018-08-16 07:09
@无毒蝎子:不一定用在防采集上,很多地方可以用的上的。
4楼、亚克力浴缸 [回复该留言]
2018-05-14 09:51
火车头采集有点复杂
3楼、米扑博客 [回复该留言]
2018-05-09 00:17
非常精妙的随机数,正好有用,赞一个
2楼、网站建设 [回复该留言]
2018-05-08 03:01
学习了,谢谢分享
1楼、残影 [回复该留言]
2018-05-05 12:59
谢谢分享

个人资料

舍力

博主:舍力

Emlog交流群

    简单的道理,复杂的人生!

博客统计

  • 文章数量:1133篇
  • 文章评论:3520条
  • 总访问量:10300443次
  • 微语数量:81条
  • 在线人数:10人
  • 本站运行:11年2月28天
  • 估计博主很忙,已经很久没更新了!
Q2 虚位以待
Copyright © 2024 舍力博客 版权所有   粤ICP备11021420号
基于宝塔面板,数据存储于阿里云ECS
Powered by emlog / &Author 舍力博客.