<?php
include_once $_SERVER['DOCUMENT_ROOT'] . '/include/shared-manual.inc';
$TOC = array();
$TOC_DEPRECATED = array();
$PARENTS = array();
include_once dirname(__FILE__) ."/toc/reference.pcre.pattern.syntax.inc";
$setup = array (
  'home' => 
  array (
    0 => 'index.php',
    1 => 'PHP Manual',
  ),
  'head' => 
  array (
    0 => 'UTF-8',
    1 => 'zh',
  ),
  'this' => 
  array (
    0 => 'regexp.reference.character-classes.php',
    1 => '字符类(方括号)',
    2 => '字符类(方括号)',
  ),
  'up' => 
  array (
    0 => 'reference.pcre.pattern.syntax.php',
    1 => 'PCRE 正则语法',
  ),
  'prev' => 
  array (
    0 => 'regexp.reference.dot.php',
    1 => '句点',
  ),
  'next' => 
  array (
    0 => 'regexp.reference.alternation.php',
    1 => '可选路径(|)',
  ),
  'alternatives' => 
  array (
  ),
  'source' => 
  array (
    'lang' => 'zh',
    'path' => 'reference/pcre/pattern.syntax.xml',
  ),
  'history' => 
  array (
  ),
);
$setup["toc"] = $TOC;
$setup["toc_deprecated"] = $TOC_DEPRECATED;
$setup["parents"] = $PARENTS;
manual_setup($setup);

contributors($setup);

?>
<div id="regexp.reference.character-classes" class="section">
  <h2 class="title">字符类(方括号)</h2>
  <p class="para">
  左方括号开始一个字符类的描述，并以方中括号结束。
  单独的一个右方括号没有特殊含义。如果一个右方括号需要作为一个字符类中的成员,
  那么可以将它写在字符类的首字符处(如果使用了 ^ 取反，
  那么是第二个)或者使用转义符。
  </p>
  <p class="para">
  一个字符类在目标字符串中匹配一个单独的字符；
  该字符必须是字符类中定义的字符集合的其中一个, 除非使用了 ^ 对字符类取反。
  如果^需要作为一个字符类的成员，确保它不是该字符类的首字符，
  或者对其进行转义即可。
  </p>
  <p class="para">
  例如，字符类[aeiou]匹配所有的小写元音字母，
  而[^aeiou]匹配所有非元音字母的字符。注意：
  ^只是一个通过枚举指定那些不存在字符类之中的字符的便利符号。而不是断言，
  它仍然会从目标字符串中消耗一个字符，并且如果当前匹配点在目标字符串末尾，
  匹配将会失败。
  </p>
  <p class="para">
  当大小写无关匹配被设置后，任意字符类都同时代表大小写两种版本，因此对于例子，
  一个大小写不敏感的[aeiou]同时匹配&quot;A&quot;和&quot;a&quot;，
  并且大小写不敏感的[^aeiou]同时不匹配
  &quot;A&quot;。
  </p>
  <p class="para">
  换行符在字符类中没有任何特殊涵义， 与 <a href="reference.pcre.pattern.modifiers.php" class="link">PCRE_DOTALL</a> 或
  <a href="reference.pcre.pattern.modifiers.php" class="link">PCRE_MULTILINE</a> 选项都无关。
  例如 [^a] 这样的字符类始终会匹配换行符。
  </p>
  <p class="para">
  在字符类中，一个中划线(减号 -)可以用于指定从一个字符到另一个字符的范围。
  比如，[d-m]匹配d到m之间的所有字符，这个集合时闭合的。
  如果中划线自身要在一个字符类中描述，
  它必须被转移或者出现在一个不会被解释为一个范围的位置，
  典型的比如字符类开始或结束位置。
  </p>
  <p class="para">
  在一个字符范围描述后面不能使用右中括号。
  比如一个模式 [W-]46] 被解释为一个包含 W 和 - 的字符类，后面紧跟字符串 ”46]”，
  因此它可以匹配 ”W46]” 或 ”-46]”。然而， 如果中括号是经过转义的，
  它将会被解释为范围的终点，
  因此 [W-\]46] 就会被解释为一个单独的包含 W 至 ] 范围内所有字符以及 4、6 的字符类。
  8 进制或 16 进制描述的中括号同样可以用于作为范围的终点。
  </p>
  <p class="para">
  范围操作以 ASCII 整理排序。它们可以用于为字符指定数值，比如 [\000-\037]。
  如果在大小写不敏感匹配模式下使用一个包含字母的范围，
  则同时匹配它的大小写形式。
  比如 [W-c] 在不区分大小写匹配时等价于 [][\^_`wxyzabc]，并且，
  如果使用了 ”fr”(法国) 的地域设置字符表时，
  [\xc8-xcb] 将会在所有模式下匹配重音 E 字符。
  </p>
  <p class="para">
  字符类\d、\D、 \s、\S、\w 和 \W 也可以出现在一个字符类中，
  用以将其匹配的字符类加入到新的自定义字符类中。比如，
  [\dABCDEF] 匹配任意合法的 16 进制数。用 ^ 可以很方便的制定严格的字符类，
  比如 [^\W_] 匹配任何字母或数字，但不匹配下划线。
  </p>
  <p class="para">
  所有非字母数字字符除了\、-、
  ^(在起始位置)以及结束的]在字符类中都是非特殊字符，
  没有转义也不会有危害。模式结束符在表达式中总是特殊字符，必须进行转义。
  </p>
  <p class="para">
  Perl 支持 POSIX 字符类符号。这种字符类使用<code class="literal">[:</code>和<code class="literal">:]</code>闭合。 PCRE 同样支持这些字符类，
  比如，<code class="literal">[01[:alpha:]%]</code>匹配 ”0”、“1”、任意字母或”%”。 支持的字符类如下：
   <table class="doctable table">
    <caption><strong>字符类</strong></caption>
    
     <tbody class="tbody">
      <tr><td><code class="literal">alnum</code></td><td>字母和数字</td></tr>

      <tr><td><code class="literal">alpha</code></td><td>字母</td></tr>

      <tr><td><code class="literal">ascii</code></td><td>0 - 127的ascii字符</td></tr>

      <tr><td><code class="literal">blank</code></td><td>空格和水平制表符</td></tr>

      <tr><td><code class="literal">cntrl</code></td><td>控制字符</td></tr>

      <tr><td><code class="literal">digit</code></td><td>十进制数(same as \d)</td></tr>

      <tr><td><code class="literal">graph</code></td><td>打印字符, 不包括空格</td></tr>

      <tr><td><code class="literal">lower</code></td><td>小写字母</td></tr>

      <tr><td><code class="literal">print</code></td><td>打印字符,包含空格</td></tr>

      <tr><td><code class="literal">punct</code></td><td>打印字符, 不包括字母和数字</td></tr>

      <tr><td><code class="literal">space</code></td><td>空白字符 (比\s多垂直制表符)</td></tr>

      <tr><td><code class="literal">upper</code></td><td>大写字母</td></tr>

      <tr><td><code class="literal">word</code></td><td>单词字符(和 \w 一样)</td></tr>

      <tr><td><code class="literal">xdigit</code></td><td>十六进制数字</td></tr>

     </tbody>
    
   </table>

   空白字符有HT(9)、 LF(10)、VT(11)、 FF(12)、CR(13)、space(32)。 注意，
   这个列表包含了垂直制表符。这使得space不同于<code class="literal">\s</code>，
   因为它不包含垂直制表符(为了向 Perl 兼容)
  </p>
  <p class="para">
  <code class="literal">[:word:]</code>是一个 Perl扩展，<code class="literal">[:blank:]</code>是一个从 Perl5.8 中来的 GNU 扩展。
  另外一个 Perl 扩展是取反，通过前置一个<code class="literal">^</code>。 比如，
  <code class="literal">[12[:^digit:]]</code> 匹配”1”,
  “2” 或任何非数字字符
  </p>
  <p class="para">
  在 UTF-8 模式中，大于 128 的字符值不会匹配任何 POSIX 字符类。
  自 libpcre 8.10 起，某些字符类改为使用 Unicode 字符属性，所以不会出现提醒中的限制。
  详情参阅 <a href="http://www.pcre.org/pcre.txt" class="link external">&raquo;&nbsp;PCRE(3) manual</a>。
  </p>
  <p class="para">
   Unicode character properties can appear inside a character class. They can
   not be part of a range. The minus (hyphen) character after a Unicode
   character class will match literally. Trying to end a range with a Unicode
   character property will result in a warning.
  </p>
 </div><?php manual_footer($setup); ?>