<?php
include_once $_SERVER['DOCUMENT_ROOT'] . '/include/shared-manual.inc';
$TOC = array();
$TOC_DEPRECATED = array();
$PARENTS = array();
include_once dirname(__FILE__) ."/toc/reference.pcre.pattern.syntax.inc";
$setup = array (
  'home' => 
  array (
    0 => 'index.php',
    1 => 'PHP Manual',
  ),
  'head' => 
  array (
    0 => 'UTF-8',
    1 => 'zh',
  ),
  'this' => 
  array (
    0 => 'regexp.reference.escape.php',
    1 => '转义序列(反斜线)',
    2 => '转义序列(反斜线)',
  ),
  'up' => 
  array (
    0 => 'reference.pcre.pattern.syntax.php',
    1 => 'PCRE 正则语法',
  ),
  'prev' => 
  array (
    0 => 'regexp.reference.meta.php',
    1 => '元字符',
  ),
  'next' => 
  array (
    0 => 'regexp.reference.unicode.php',
    1 => 'Unicode 字符属性',
  ),
  'alternatives' => 
  array (
  ),
  'source' => 
  array (
    'lang' => 'zh',
    'path' => 'reference/pcre/pattern.syntax.xml',
  ),
  'history' => 
  array (
  ),
);
$setup["toc"] = $TOC;
$setup["toc_deprecated"] = $TOC_DEPRECATED;
$setup["parents"] = $PARENTS;
manual_setup($setup);

contributors($setup);

?>
<div id="regexp.reference.escape" class="section">
  <h2 class="title">转义序列(反斜线)</h2>
  <p class="para">
  反斜线有多种用法。首先，如果紧接着是一个非字母数字字符，表明取消
  该字符所代表的特殊涵义。这种将反斜线作为转义字符的用法在字符类
  内部和外部都可用。
  </p>
  <p class="para">
  比如，如果你希望匹配一个 &quot;*&quot; 字符，就需要在模式中写为 &quot;\*&quot;。
  这适用于一个字符在不进行转义会有特殊含义的情况下。 但是，
  对于非数字字母的字符，总是在需要其进行原文匹配的时候在它前面增加一个反斜线，
  来声明它代表自己，这是安全的。如果要匹配一个反斜线，那么在模式中使用 ”\\”。
  </p>
  <blockquote class="note"><p><strong class="note">注意</strong>: 
   <p class="para">
   反斜线在单引号和双引号 PHP <a href="language.types.string.php#language.types.string.syntax" class="link">字符串</a>
   中都有特殊含义。因此要匹配一个反斜线 \，正则表达式写法是 \\，
   然后 PHP 代码中需要转义写成 &quot;\\\\&quot; 或 &#039;\\\\&#039;。
   </p>
  </p></blockquote>
  <p class="para">
  如果一个模式被使用 <a href="reference.pcre.pattern.modifiers.php" class="link">PCRE_EXTENDED</a> 选项编译，
  模式中的空白字符(除了字符类中的)和未转义的#到行末的所有字符都会被忽略。
  要在这种情况下使用空白字符或者#，就需要对其进行转义。
  </p>
  <p class="para">
  反斜线的第二种用途提供了一种对非打印字符进行可见编码的控制手段。
  除了二进制的 0 会终结一个模式外，并不会严格的限制非打印字符(自身)的出现，
  但是当一个模式以文本编辑器的方式编辑准备的时候，
  使用下面的转义序列相比使用二进制字符会更加容易：
  </p>
  <p class="para">
   <dl>
    
     <dt><em>\a</em></dt>
     <dd>
      <span class="simpara">响铃字符(十六进制 07)</span>
     </dd>
    
    
     <dt><em>\cx</em></dt>
     <dd>
      <span class="simpara">&quot;control-x&quot;，x 是任意字符</span>
     </dd>
    
    
     <dt><em>\e</em></dt>
     <dd>
      <span class="simpara">转义 (十六进制 1B)</span>
     </dd>
    
    
     <dt><em>\f</em></dt>
     <dd>
      <span class="simpara">换页 (十六进制 0C)</span>
     </dd>
    
    
     <dt><em>\n</em></dt>
     <dd>
      <span class="simpara">换行 (十六进制 0A)</span>
     </dd>
    
    
     <dt><em>\p{xx}</em></dt>
     <dd>
      <span class="simpara">
      一个符合 xx 属性的字符，详细查看<a href="regexp.reference.unicode.php" class="link">unicode properties</a> 属性
      </span>
     </dd>
    
    
     <dt><em>\P{xx}</em></dt>
     <dd>
      <span class="simpara">
      一个不符合xx属性的字符，详细查看<a href="regexp.reference.unicode.php" class="link">unicode properties</a> 属性
      </span>
     </dd>
    
    
     <dt><em>\r</em></dt>
     <dd>
      <span class="simpara">回车 (十六进制 0D)</span>
     </dd>
    
    
     <dt><em>\R</em></dt>
     <dd>
      <span class="simpara">换行符：能匹配 \n、\r、\r\n</span>
     </dd>
    
    
     <dt><em>\t</em></dt>
     <dd>
      <span class="simpara">水平制表符 tab (十六进制 09)</span>
     </dd>
    
    
     <dt><em>\xhh</em></dt>
     <dd>
      <span class="simpara">
      hh 十六进制编码的字符
      </span>
     </dd>
    
    
     <dt><em>\ddd</em></dt>
     <dd>
      <span class="simpara">ddd八进制编码的字符，或者后向引用</span>
     </dd>
    
   </dl>
  </p>
  <p class="para">
  <code class="literal">\cx</code>的确切效果如下： 如果<code class="literal">x</code>是一个小写字母，它被转换为大写。接着，
  将字符的第6位(十六进制 40，右数第一个位为第0位)取反。
  比如<code class="literal">\cz</code>成为十六进制的1A，<code class="literal">\c{</code>成为十六进制3B，
  <code class="literal">\c;</code>成为十六进制7B。
  </p>
  <p class="para">
  在”<code class="literal">\x</code>”后面，读取两个十六进制数(字母可以是大写或小写)。
  在<em>UTF-8模式</em>，
  “<code class="literal">\x{…}</code>”允许使用， 花括号内的内容是十六进制有效数字。
  它将给出的十六进制数字解释为 UTF-8 字符代码。原来的十六进制转义序列，
  <code class="literal">\xhh</code>，
  匹配一个双字节的UTF-8字符，如果它的值大于127
  </p>
  <p class="para">
  在”<code class="literal">\0</code>”之后， 读取两个八进制数。所有情况下，如果数少于2个，则直接使用。
  序列 ”<code class="literal">\0\x\07</code>” 指定了两个二进制 0 紧跟着一个 BEL 字符。
  请确保初始的 0 之后的两个数字是合法的八进制数。
  </p>
  <p class="para">
  处理一个反斜线紧跟着的不是0的数字的情况比较复杂。在字符类外部，
  PCRE 读取它并以十进制读取紧随其后的数字。 如果数值小于 10，
  或者之前捕获到了该数字能够代表的左括号(子组)，
  整个数字序列被认为是<em>后向引用</em>。后向引用如何工作在后面描述，
  接下来就会讨论括号子组。
  </p>
  <p class="para">
  在一个字符类里面，或者十进制数大于 9 并且没有那么多的子组被捕获，
  PCRE 重新读取反斜线后的第三个 8 进制数字，并且从最低的 8 位生成单字节值。
  任何的后续数字都代表它们自身。例如：
  </p>
  <p class="para">
   <dl>
    
     <dt><em>\040</em></dt>
     <dd><span class="simpara">空格的另外一种用法</span></dd>
    
    
     <dt><em>\40</em></dt>
     <dd>
      <span class="simpara">
      当提供了少于40个子组时也认为是空格。
      </span>
     </dd>
    
    
     <dt><em>\7</em></dt>
     <dd><span class="simpara">始终是后向引用</span></dd>
    
    
     <dt><em>\11</em></dt>
     <dd>
      <span class="simpara">
      可能是后向引用，也可能是制表符
      </span>
     </dd>
    
    
     <dt><em>\011</em></dt>
     <dd><span class="simpara">总是一个制表符</span></dd>
    
    
     <dt><em>\0113</em></dt>
     <dd><span class="simpara">一个制表符紧跟着一个3(因为每次最多只读取3个8进制位</span></dd>
    
    
     <dt><em>\113</em></dt>
     <dd>
      <span class="simpara">
      八进制113代表的字符(since there
       can be no more than 99 back references)
      </span>
     </dd>
    
    
     <dt><em>\377</em></dt>
     <dd><span class="simpara">8进制377是10进制255， 因此代表一个全1的字符</span></dd>
    
    
     <dt><em>\81</em></dt>
     <dd>
      <span class="simpara">
      一个后向引用或者一个二进制 0 紧跟着两个数字 8 和 1(因为8不是8进制有效数字)
      </span>
     </dd>
    
   </dl>
  </p>
  <p class="para">
  注意，八进制值的 100 或者更大的值必须没有前置的0引导，
  因为每次最多读取3个8进制位.
  </p>
  <p class="para">
  所有序列定义的单字节值都可以在字符类内部或外部使用。另外，在字符类中,
  序列 ”<code class="literal">\b</code>” 解释为退格字符(hex 08)。
  字符类外它又有不同的意义(下面有描述)。
  </p>
  <p class="para">
  反斜线的第三种用法是用来描述特定的字符类：
  </p>
  <p class="para">
   <dl>
    
     <dt><em>\d</em></dt>
     <dd><span class="simpara">任意十进制数字</span></dd>
    
    
     <dt><em>\D</em></dt>
     <dd><span class="simpara">任意非十进制数字</span></dd>
    
    
     <dt><em>\h</em></dt>
     <dd><span class="simpara">任意水平空白字符</span></dd>
    
    
     <dt><em>\H</em></dt>
     <dd><span class="simpara">任意非水平空白字符</span></dd>
    
    
     <dt><em>\s</em></dt>
     <dd><span class="simpara">任意空白字符</span></dd>
    
    
     <dt><em>\S</em></dt>
     <dd><span class="simpara">任意非空白字符</span></dd>
    
    
     <dt><em>\v</em></dt>
     <dd><span class="simpara">任意垂直空白字符</span></dd>
    
    
     <dt><em>\V</em></dt>
     <dd><span class="simpara">任意非垂直空白字符</span></dd>
    
    
     <dt><em>\w</em></dt>
     <dd><span class="simpara">任意单词字符</span></dd>
    
    
     <dt><em>\W</em></dt>
     <dd><span class="simpara">任意非单词字符</span></dd>
    
   </dl>
  </p>
  <p class="para">
  上面每一对转义序列都代表了完整字符集中两个不相交的部分，
  任意字符一定会匹配其中一个，同时一定不会匹配另外一个。
  </p>
  <p class="para">
   &quot;空白字符&quot;（whitespace）是 HT (9)、LF (10)、FF (12)、CR (13)、space (32)。
   然而，若发生了本地化匹配，在代码点 128-255 范围内亦可能出现空白字符，
   比如说 NBSP (A0)。
  </p>
  <p class="para">
  单词字符指的是任意字母、数字、下划线。
  也就是说任意可以组成perl<em>单词</em>的字符。
  字母和数字的定义通过PCRE字符表控制，可以通过指定地域设置使其匹配改变。比如，
  在法国 (fr) 本地化设置中，一些超过 128 的字符代码被用于重音字母，
  它们可以实用 <code class="literal">\w</code> 匹配。
  </p>
  <p class="para">
  这些字符类序列在字符类内部或外部都可以出现。
  他们每次匹配所代表的字符类型中的一个字符。 如果当前匹配点位于目标字符串末尾，
  它们中的所有字符都匹配失败， 因为没有字符让它们匹配了。
  </p>
  <p class="para">
  反斜线的第四种用法是一些简单的断言。
  一个断言指定一个必须在特定位置匹配的条件，
  它们不会从目标字符串中消耗任何字符。
  接下来我们会讨论使用子组的更加复杂的断言。 反斜线断言包括：
  </p>
  <p class="para">
   <dl>
    
     <dt><em>\b</em></dt>
     <dd><span class="simpara">单词边界</span></dd>
    
    
     <dt><em>\B</em></dt>
     <dd><span class="simpara">非单词边界</span></dd>
    
    
     <dt><em>\A</em></dt>
     <dd><span class="simpara">目标的开始位置(独立于多行模式)</span></dd>
    
    
     <dt><em>\Z</em></dt>
     <dd>
      <span class="simpara">
      目标的结束位置或结束处的换行符(独立于多行模式)
      </span>
     </dd>
    
    
     <dt><em>\z</em></dt>
     <dd><span class="simpara">目标的结束位置(独立于多行模式)</span></dd>
    
    
     <dt><em>\G</em></dt>
     <dd><span class="simpara">在目标中首次匹配位置</span></dd>
    
   </dl>
  </p>
  <p class="para">
  这些断言不能出现在字符类中(但是注意， “<code class="literal">\b</code>”在字符类中有不同的意义，
  表示的是退格(backspace)字符)
  </p>
  <p class="para">
  一个单词边界表示的是在目标字符串中，
  当前字符和前一个字符不同时匹配<code class="literal">\w</code>或<code class="literal">\W</code>(一个匹配<code class="literal">\w</code>,
  一个匹配<code class="literal">\W</code>)，
  或者作为字符串开始或结尾字符的时候当前字符匹配<code class="literal">\w</code>。
  </p>
  <p class="para">
  <code class="literal">\A</code>， <code class="literal">\Z</code>，
  <code class="literal">\z</code>断言不同于传统的<code class="literal">^</code>和<code class="literal">$</code>(详见 <a href="regexp.reference.anchors.php" class="link">锚</a>)，
  因为他们永远匹配目标字符串的开始和结尾，而不会受模式修饰符的限制。
  它们不受<a href="reference.pcre.pattern.modifiers.php" class="link">PCRE_MULTILINE</a>，<a href="reference.pcre.pattern.modifiers.php" class="link">PCRE_DOLLAR_ENDONLY</a>选项的影响。
  <code class="literal">\Z</code> 和 <code class="literal">\z</code> 之间的不同在于当字符串结束字符时换行符时 <code class="literal">\Z</code> 会将其看做字符串结尾匹配,
  而 <code class="literal">\z</code> 只匹配字符串结尾。
  </p>
  <p class="para">
  <code class="literal">\G</code> 断言在指定了<code class="parameter">offset</code> 参数的<span class="function"><a href="function.preg-match.php" class="function">preg_match()</a></span> 调用中，
  仅在当前匹配位置在匹配开始点的时候才是成功的。
  当 <code class="parameter">offset</code> 的值不为 0 的时候，
  它与 <code class="literal">\A</code> 是不同的。 译注：另外一点与 <code class="literal">\A</code> 的不同之处在于使用 preg_match_all() 时，
  每次匹配 <code class="literal">\G</code> 只是断言是否是匹配结果的开始位置，
  而 <code class="literal">\A</code> 断言的则是匹配结果的开始位置是否在目标字符串开始位置。
  </p>
  
  <p class="para">
   <code class="literal">\Q</code> 和 <code class="literal">\E</code> 可以用于在模式中忽略正则表达式元字符。比如：<code class="literal">\w+\Q.$.\E$</code>
   会匹配一个或多个单词字符，紧接着 <code class="literal">.$.</code>，最后锚向字符串末尾。注意这不会改变分隔符的行为；例如模式
   <code class="literal">#\Q#\E#$</code> 无效，因为第二个 <code class="literal">#</code>
   标记了模式的结束，而 <code class="literal">\E#</code> 解释为无效的修饰符。
  </p>
  
  <p class="para">
   <code class="literal">\K</code> 可以用于重置匹配。 比如，
   <code class="literal">foot\Kbar</code> 匹配”footbar”。
  但是得到的匹配结果是 ”bar”。但是， <code class="literal">\K</code> 的使用不会干预到子组内的内容，
  比如 <code class="literal">(foot)\Kbar</code> 匹配 ”footbar”，第一个子组内的结果仍然会是 ”foo”。译注：
  \K 放在子组和子组外面的效果是一样的。
  </p>
  
 </div><?php manual_footer($setup); ?>