宇扬信息科技工作室

robots.txt屏蔽内容与网站安全性的考虑

发布: 2012-12-02 00:50:03 | 作者: 不详 | 来源: 本站整理 | 查看: 182

robots.txt文件可以有效的屏蔽搜索引擎抓取我们不需要被抓取的页面和网站源文件,其中的好处是限制搜索引擎过多的抓取不必要的内容,减少搜索引擎蜘蛛进行不必要的网站爬寻分散,也是为了让我们的网站不必要的内容不在搜索引擎被收录,不让别人搜索到。 其中什么样的文件会被限制抓取呢?

一、是否通过robots.txt来屏蔽动态页面,减少页面的重复抓取?

其实个人建议普通网站不必要进行动态页面的屏蔽,搜索引擎一般会自动判断是否重复,普通网站内容并不是非常多,一般出现重复页面的可能性也比较低,如果是信息站和论坛站等建议屏蔽动态页面。

robots

二、robots.txt屏蔽特殊页面,隐私内容的屏蔽。

robots.txt屏蔽特殊页面,网站隐私内容的屏蔽,其实对于一个网站来说,隐私内容比较难实现,在无程序支持的前提下,这里说的隐私是指一些不想被流传到互联网的内容,屏蔽搜索引擎蜘蛛避免在互联网被泛滥,如:网络培训班培训资料。

robots

三、网站特殊文件夹屏蔽

特殊文件夹一般是指,网站程序安装文件,动态功能页面,多于的文件夹,后台功能等。

robots

robots.txt文件的好处刚才也说了,就是提供搜索引擎蜘蛛看的,告诉它哪些文件你不要看,不给你的,这是它的优点,但是robots.txt在告诉搜索引擎蜘蛛的同时,也在告诉其他人,这个网站的隐私,比如:网站后台文件夹地址,相信很多站长都会在robots.txt上面填写,如:Disallow:/dede/ 从这里我们可以看错应该是织梦程序,当然我们可以更改。

网站屏蔽的安装文件地址,如:Disallow: /install/ 这一般是程序安装文件的地址,就算我们后台地址更改后一样能分析出是什么程序做出来的。

屏蔽网站后台登录地址,如:Disallow: /login.asp  这样就明显告诉有心人你的后台登录地址了。

屏蔽网站隐私内容,如:Disallow: /123.html  也只是针对搜索引擎,对人为我们还是有风险。

上面说的几点都是出于安全性的考虑,那我们还写不写robots.txt呢?

根据我个人的操作来说,robots.txt还是要些的,毕竟优化很多时候离不开他,但是对于网站安全我们也要采取一些必要的措施与手段,那我们只能在程序的安全性上做手脚了,但要怎么做这手脚是程序员发挥作用的时候了,比如会员功能等。

其次,为了不告知他人我们的隐私,那么我们可以在robots里用“*”来隐藏我们的文件名。  

robots

从上图可以见,我们可以完全不暴露自己的文件名了,同时也能够对搜索引擎蜘蛛进行屏蔽!

    评论 0 次    最新评论(评论内容只代表网友观点,与本站立场无关!)
    发表评论
    点击更换验证码  

    ·本站大部分文章和内容来自互联网,如果您觉得我们侵犯了您的权益,请告诉我们!

    ·您在本站发表的作品,本站有权在网站内转载或引用!

    ·本站所提供的设计,摄影及其它作品,如需使用,请与原作者联系,版权归原作者所有。

    About 宇扬联系我们付款方式友情链接网站地图版权声明投稿须知帮助