发新话题
打印

.htaccess是什么?

.htaccess是什么?

.htaccess文件(或者"分布式配置文件"提供了针对目录改变配置的方法, 即,在一个特定的文档目录中放置一个包含一个或多个指令的文件, 以作用于此目录及其所有子目录。作为用户,所能使用的命令受到限制。管理员可以通过Apache的AllowOverride指令来设置。

  - 子目录中的指令会覆盖更高级目录或者主服务器配置文件中的指令。

  - .htaccess必须以ASCII模式上传,最好将其权限设置为644。

  Unix、Linux系统或者是任何版本的Apache Web服务器都是支持.htaccess的,但是有的主机服务商可能不允许你自定义自己的.htaccess文件。国内的大多数虚拟主机就没有这个功能。我所知道的提供这个功能的有康盛世纪(就是Discuz的论坛服务商)。

  启用.htaccess,需要修改httpd.conf,启用AllowOverride,并可以用AllowOverride限制特定命令的使用。如果需要使用.htaccess以外的其他文件名,可以用AccessFileName指令来改变。例如,需要使用.config ,则可以在服务器配置文件中按以下方法配置:AccessFileName .config 。

  笼统地说,.htaccess可以帮我们实现包括:文件夹密码保护、用户自动重定向、自定义错误页面、改变你的文件扩展名、封禁特定IP地址的用户、只允许特定IP地址的用户、禁止目录列表,以及使用其他文件作为index文件等一些功能。

  下面具体介绍一下.htaccess文件功能的设置

  如何创建一个.htaccess文档

  .htaccess是一个古怪的文件名(从Win的角度来说,它没有文件名,只有一个由8个字母组成的扩展名,不过实际上它是linux下的命名,而很多linux下的东西,我们向来都会认为很古怪的),在Win系统中是不可以直接通过“新建”文件来创建的,不过我们可以利用cmd中的copy来实现,比如copy sample.txt .htaccess。也可以先创建一个htaccess.txt,然后Ftp到服务器,通过FTP来修改文件名。

  怎样自定义错误页

  .htaccess的一个应用是自定义错误页面,这将使你可以拥有自己的、个性化的错误页面(例如找不到文件时),而不是你的服务商提供的错误页或没有任何页面。这会让你的网站在出错的时候看上去更专业。你还可以利用脚本程序在发生错误的时候通知你(例如当找不到页面的时候自动Email给你)。你所知道的任何页面错误代码(比如404找不到页面),都可以通过在.htaccess文件里加入下面的文字将其变成自定义页面:

  ErrorDocument errornumber /file.html

  举例来说,如果我的根目录下有一个notfound.html文件,我想使用它作为404 error的页面:

  ErrorDocument 404 /notfound.html

  如果文件不在网站的根目录下,你只需要把路径设置为:

  ErrorDocument 500 /errorpages/500.html

  以下是一些最常用的错误:

  401 - Authorization Required 需要验证

  400 - Bad request 错误请求

  403 - Forbidden 禁止

  500 - Internal Server Error 内部服务器错误

  404 - Wrong page 找不到页面

  接下来,你要做的只是创建一个错误发生时显示的文件,然后把它们和.htaccess一起上传。

  如果所需要提示的信息很少的话,不必专门制作页面,直接在指令中使用HTML号了,例如下面这个例子:

  ErrorDocument 401 "你没有权限访问该页面,请放弃!"

  注:html代码可以换行,不过其中出现的 " 需转义为 \"

  .htaccess文件的常用命令

  一、禁止显示目录列表

  有些时候,由于某种原因,你的目录里没有index文件,这就意味着当有人在浏览器地址栏键入了该目录的路径,该目录下所有的文件都被会显示出来,这会给你的网站留下安全隐患。为避免这种情况(而不必创建一堆的新index文件),你可以在你的.htaccess文档中键入以下命令,用以阻止游客访问你的目录。

  目录列表的显示:

  Options -Indexes

  二、阻止/允许特定的IP地址

  某些情况下,你可能只想允许某些特定IP的用户可以访问你的网站(例如:只允许使用特定ISP的用户进入某个目录),或者想封禁某些特定的IP地址(例如:将低级用户隔离于你的信息版面外)。当然,这只在你知道你想拦截的IP地址时才有用,然而现在网上的大多数用户都使用动态IP地址,所以这并不是限制使用的常用方法。

  你可以使用以下命令封禁一个IP地址:

  deny from 000.000.000.000

  这里的000.000.000.000是被封禁的IP地址,如果你只指明了其中的几个,则可以封禁整个网段的地址。如你输入210.10.56.,则将封禁210.10.56.0~210.10.56.255的所有IP地址。

  你可以使用以下命令允许一个IP地址访问网站:

  allow from 000.000.000.000

  被允许的IP地址则为000.000.000.000,你可以象封禁IP地址一样允许整个网段。

  如果你想阻止所有人访问该目录,则可以使用:

  deny from all

  不过这并不影响脚本程序使用这个目录下的文档

  .htaccess文件(或者"分布式配置文件"提供了针对目录改变配置的方法, 即,在一个特定的文档目录中放置一个包含一个或多个指令的文件, 以作用于此目录及其所有子目录。作为用户,所能使用的命令受到限制。管理员可以通过Apache的AllowOverride指令来设置。

  文档访问的密码保护

  要利用.htaccess对某个目录下的文档设定访问用户和对应的密码,首先要做的是生成一个.htpasswd的文本文档,例如:

  zheng:y4E7Ep8e7EYV

  这里密码经过加密,用户可以自己找些工具将密码加密成.htaccess支持的编码。该文档最好不要放在www目录下,建议放在www根目录文档之外,这样更为安全些。

  有了授权用户文档,可以在.htaccess中加入如下指令了:

  AuthUserFile /usr/local/safedir/.htpasswd (.htpasswd的全路径名)

  AuthGroupFile /dev/null (需要授权访问的目录)

  AuthName EnterPassword

  AuthType Basic (授权类型)

  require user wsabstract (允许访问的用户,如果希望表中所有用户都允许,可以使用 require valid-user)

  注,括号部分为学习时候自己添加的注释

  保护.htaccess文档

  在使用.htaccess来设置目录的密码保护时,它包含了密码文件的路径。从安全考虑,有必要把.htaccess也保护起来,不让别人看到其中的内容。虽然可以用其他方式做到这点,比如文档的权限。不过,.htaccess本身也能做到,只需加入如下的指令:

  order allow,deny

  deny from all

  URL转向

  我们可能对网站进行重新规划,将文档进行了迁移,或者更改了目录。这时候,来自搜索引擎或者其他网站链接过来的访问就可能出错。这种情况下,可以通过如下指令来完成旧的URL自动转向到新的地址:

  Redirect /旧目录/旧文档名 新文档的地址

  或者整个目录的转向:

  Redirect 旧目录 新目录

  改变缺省的首页文件

  一般情况下缺省的首页文件名有default、index等。不过,有些时候目录中没有缺省文件,而是某个特定的文件名,比如在pmwiki中是pmwiki.php。这种情况下,要用户记住文件名来访问很麻烦。在.htaccess中可以轻易的设置新的缺省文件名:

  DirectoryIndex 新的缺省文件名

  也可以列出多个,顺序表明它们之间的优先级别,例如:

  DirectoryIndex filename.html index.cgi index.pl default.htm

  防止盗链

  如果不喜欢别人在他们的网页上连接自己的图片、文档的话,也可以通过htaccess的指令来做到。

  所需要的指令如下:

  RewriteEngine on

  RewriteCond %{HTTP_REFERER} !^$

  RewriteCond %{HTTP_REFERER} !^http://(www.)?mydomain.com...*$ [NC]

  RewriteRule .(gif|jpg)$ - [F]

  如果觉得让别人的页面开个天窗不好看,那可以用一张图片来代替:

  RewriteEngine on

  RewriteCond %{HTTP_REFERER} !^$

  RewriteCond %{HTTP_REFERER} !^http://(www.)?mydomain.com...*$ [NC]

  RewriteRule .(gif|jpg)$ http://www.mydomain.com/替代图片文件名 [R,L]

  source:http://wsabstract.com/howt...

.htaccess实现网址规范化  网址规范化在SEO中是一个比较重要的环节,同时存在不同的网址版本,不但可能造成复制,还不能正确的集中权重。

  目前大多数网站,绑定域名都有带WWW和不带两个版本,甚至很多网站同时绑定多个域名。经过处理(跳转、CNAME……),对于访问者来说可能没有任何影响,看到的都是同样的内容;但对于搜索引擎,就无法确定哪一个网址是真正的主页。

  可控因素,网站内容链接应该保持同一个版本,比如整站中,返回首页的地址为固定的一个版本。但还有一个不可控的因素,就是别人链到你的网站,所使用的网址。很多自发链接或交换链接时,别人可能会省略掉WWW,或采用绑定的另一域名。

  外界因素不可控,我们可以从网站内部来控制。利用Apache的.htaccess,使用301重定向,规范网址。

  新建一个空文件,文件名.htaccess,填入重定向规则后,上传到网站根目录。

  用301将不带WWW的域名重定向

  rewriteEngine on

  rewriteCond %{HTTP_HOST} ^379.cc [NC]

  rewriteRule ^(.*)$ http://www.379.cc/$1 [R=301,L]

  用301将绑定的其他多个域名重定向到主域名

  RewriteEngine on

  RewriteCond %{HTTP_HOST} ^379.cc$ [OR]

  RewriteCond %{HTTP_HOST} ^bbs.379.cc$ [OR]

  RewriteCond %{HTTP_HOST} ^luoyang.cc$ [OR]

  RewriteCond %{HTTP_HOST} ^www.luoyang.cc$ [OR]

  RewriteCond %{HTTP_HOST} ^bbs.luoyang.cc$

  RewriteRule ^(.*)$ http://www.379.cc/$1 [R=301,L]

  当然,也可以再扩展一下,将index.html、index.php等也重定向一下:

  RewriteEngine on

  RewriteCond %{REQUEST_URI} ^[A-Z]{3,9}\ /index\.php\ HTTP/

  RewriteRule ^index\.php$ http://www.379.cc/ [R=301,L]

  Enabling SSI Via htaccess 通过htaccess允许SSI(Server Side Including)功能

  
AddType text/html .shtml

  AddHandler server-parsed .shtml

  Options Indexes FollowSymLinks Includes

  DirectoryIndex index.shtml index.html

  Blocking users/sites by referrer 根据referrer阻止用户/站点访问

  需要mod_rewrite模块

  例1. 阻止单一referrer: badsite.com

  RewriteEngine on

  # Options +FollowSymlinks

  RewriteCond %{HTTP_REFERER} badsite\.com [NC]

  RewriteRule .* - [F]

  例2. 阻止多个referrer: badsite1.com, badsite2.com

  RewriteEngine on

  # Options +FollowSymlinks

  RewriteCond %{HTTP_REFERER} badsite1\.com [NC,OR]

  RewriteCond %{HTTP_REFERER} badsite2\.com

  RewriteRule .* - [F]

  [NC] - 大小写不敏感(Case-insensite)

  [F] - 403 Forbidden

  注意以上代码注释掉了”Options +FollowSymlinks”这个语句。如果服务器未在 httpd.conf 的 段落设置 FollowSymLinks, 则需要加上这句,否则会得到”500 Internal Server error”错误。

  Blocking bad bots and site rippers (aka offline browsers) 阻止坏爬虫和离线浏览器

  
需要mod_rewrite模块

  坏爬虫? 比如一些抓垃圾email地址的爬虫和不遵守robots.txt的爬虫(如baidu?)

  可以根据 HTTP_USER_AGENT 来判断它们

  (但是对于一些搜索引擎把自己的agent设置为 “Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)” ,就无能为力了)

  RewriteEngine On

  RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]

  RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]

  RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]

  RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]

  RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]

  RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]

  RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]

  RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]

  RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]

  RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]

  RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]

  RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]

  RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]

  RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]

  RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]

  RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]

  RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]

  RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]

  RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]

  RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]

  RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]

  RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]

  RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]

  RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]

  RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]

  RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]

  RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]

  RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]

  RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]

  RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]

  RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]

  RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]

  RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]

  RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]

  RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]

  RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]

  RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]

  RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]

  RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]

  RewriteCond %{HTTP_USER_AGENT} ^Zeus

  RewriteRule ^.* ? [F,L]

  注:[F] ? 403 Forbidden [L] ? 连接(Link)

  Discuz!论坛静态化配置规则如下:

  # 将 RewriteEngine 模式打开

  RewriteEngine On

  # 修改以下语句中的 /discuz 为你的论坛目录地址,如果程序放在根目录中,请将 /discuz 修改为 /

  RewriteBase /

  # Rewrite 系统规则请勿修改

  RewriteRule ^archiver/((fid|tid)-[\w\-]+\.html)$ archiver/index.php?$1

  RewriteRule ^forum-([0-9]+)-([0-9]+)\.html$ forumdisplay.php?fid=$1&page=$2

  RewriteRule ^thread-([0-9]+)-([0-9]+)-([0-9]+)\.html$ viewthread.php?tid=$1&extra=page\%3D$3&page=$2

  RewriteRule ^space-(username|uid)-(.+)\.html$ space.php?$1=$2

  RewriteRule ^tag-(.+)\.html$ tag.php?name=$1

TOP

发新话题