/[pcre]/code/trunk/pcre_dfa_exec.c
ViewVC logotype

Diff of /code/trunk/pcre_dfa_exec.c

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 473 by ph10, Sat Jan 2 12:40:07 2010 UTC revision 518 by ph10, Tue May 18 15:47:01 2010 UTC
# Line 106  never stored, so we push them well clear Line 106  never stored, so we push them well clear
106    
107    
108  /* This table identifies those opcodes that are followed immediately by a  /* This table identifies those opcodes that are followed immediately by a
109  character that is to be tested in some way. This makes is possible to  character that is to be tested in some way. This makes it possible to
110  centralize the loading of these characters. In the case of Type * etc, the  centralize the loading of these characters. In the case of Type * etc, the
111  "character" is the opcode for \D, \d, \S, \s, \W, or \w, which will always be a  "character" is the opcode for \D, \d, \S, \s, \W, or \w, which will always be a
112  small value. Non-zero values in the table are the offsets from the opcode where  small value. Non-zero values in the table are the offsets from the opcode where
# Line 118  static const uschar coptable[] = { Line 118  static const uschar coptable[] = {
118    0, 0, 0, 0, 0,                 /* \A, \G, \K, \B, \b                     */    0, 0, 0, 0, 0,                 /* \A, \G, \K, \B, \b                     */
119    0, 0, 0, 0, 0, 0,              /* \D, \d, \S, \s, \W, \w                 */    0, 0, 0, 0, 0, 0,              /* \D, \d, \S, \s, \W, \w                 */
120    0, 0, 0,                       /* Any, AllAny, Anybyte                   */    0, 0, 0,                       /* Any, AllAny, Anybyte                   */
121    0, 0, 0,                       /* NOTPROP, PROP, EXTUNI                  */    0, 0,                          /* \P, \p                                 */
122    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */
123      0,                             /* \X                                     */
124    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */
125    1,                             /* Char                                   */    1,                             /* Char                                   */
126    1,                             /* Charnc                                 */    1,                             /* Charnc                                 */
# Line 156  static const uschar coptable[] = { Line 157  static const uschar coptable[] = {
157    0,                             /* Reverse                                */    0,                             /* Reverse                                */
158    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */
159    0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */    0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */
160    0,                             /* CREF                                   */    0, 0,                          /* CREF, NCREF                            */
161    0,                             /* RREF                                   */    0, 0,                          /* RREF, NRREF                            */
162    0,                             /* DEF                                    */    0,                             /* DEF                                    */
163    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0,                          /* BRAZERO, BRAMINZERO                    */
164    0, 0, 0, 0,                    /* PRUNE, SKIP, THEN, COMMIT              */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */
165    0, 0, 0, 0                     /* FAIL, ACCEPT, CLOSE, SKIPZERO          */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */
166      0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */
167  };  };
168    
169  /* This table identifies those opcodes that inspect a character. It is used to  /* This table identifies those opcodes that inspect a character. It is used to
# Line 174  static const uschar poptable[] = { Line 176  static const uschar poptable[] = {
176    0, 0, 0, 1, 1,                 /* \A, \G, \K, \B, \b                     */    0, 0, 0, 1, 1,                 /* \A, \G, \K, \B, \b                     */
177    1, 1, 1, 1, 1, 1,              /* \D, \d, \S, \s, \W, \w                 */    1, 1, 1, 1, 1, 1,              /* \D, \d, \S, \s, \W, \w                 */
178    1, 1, 1,                       /* Any, AllAny, Anybyte                   */    1, 1, 1,                       /* Any, AllAny, Anybyte                   */
179    1, 1, 1,                       /* NOTPROP, PROP, EXTUNI                  */    1, 1,                          /* \P, \p                                 */
180    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */
181      1,                             /* \X                                     */
182    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */
183    1,                             /* Char                                   */    1,                             /* Char                                   */
184    1,                             /* Charnc                                 */    1,                             /* Charnc                                 */
# Line 212  static const uschar poptable[] = { Line 215  static const uschar poptable[] = {
215    0,                             /* Reverse                                */    0,                             /* Reverse                                */
216    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */
217    0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */    0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */
218    0,                             /* CREF                                   */    0, 0,                          /* CREF, NCREF                            */
219    0,                             /* RREF                                   */    0, 0,                          /* RREF, NRREF                            */
220    0,                             /* DEF                                    */    0,                             /* DEF                                    */
221    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0,                          /* BRAZERO, BRAMINZERO                    */
222    0, 0, 0, 0,                    /* PRUNE, SKIP, THEN, COMMIT              */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */
223    0, 0, 0, 0                     /* FAIL, ACCEPT, CLOSE, SKIPZERO          */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */
224      0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */
225  };  };
226    
227  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,
# Line 255  typedef struct stateblock { Line 259  typedef struct stateblock {
259  #define INTS_PER_STATEBLOCK  (sizeof(stateblock)/sizeof(int))  #define INTS_PER_STATEBLOCK  (sizeof(stateblock)/sizeof(int))
260    
261    
262  #ifdef DEBUG  #ifdef PCRE_DEBUG
263  /*************************************************  /*************************************************
264  *             Print character string             *  *             Print character string             *
265  *************************************************/  *************************************************/
# Line 559  for (;;) Line 563  for (;;)
563    workspace[0] ^= 1;              /* Remember for the restarting feature */    workspace[0] ^= 1;              /* Remember for the restarting feature */
564    workspace[1] = active_count;    workspace[1] = active_count;
565    
566  #ifdef DEBUG  #ifdef PCRE_DEBUG
567    printf("%.*sNext character: rest of subject = \"", rlevel*2-2, SP);    printf("%.*sNext character: rest of subject = \"", rlevel*2-2, SP);
568    pchars((uschar *)ptr, strlen((char *)ptr), stdout);    pchars((uschar *)ptr, strlen((char *)ptr), stdout);
569    printf("\"\n");    printf("\"\n");
# Line 605  for (;;) Line 609  for (;;)
609      int state_offset = current_state->offset;      int state_offset = current_state->offset;
610      int count, codevalue, rrc;      int count, codevalue, rrc;
611    
612  #ifdef DEBUG  #ifdef PCRE_DEBUG
613      printf ("%.*sProcessing state %d c=", rlevel*2-2, SP, state_offset);      printf ("%.*sProcessing state %d c=", rlevel*2-2, SP, state_offset);
614      if (clen == 0) printf("EOL\n");      if (clen == 0) printf("EOL\n");
615        else if (c > 32 && c < 127) printf("'%c'\n", c);        else if (c > 32 && c < 127) printf("'%c'\n", c);
# Line 706  for (;;) Line 710  for (;;)
710    
711      switch (codevalue)      switch (codevalue)
712        {        {
713    /* ========================================================================== */
714          /* These cases are never obeyed. This is a fudge that causes a compile-
715          time error if the vectors coptable or poptable, which are indexed by
716          opcode, are not the correct length. It seems to be the only way to do
717          such a check at compile time, as the sizeof() operator does not work
718          in the C preprocessor. */
719    
720          case OP_TABLE_LENGTH:
721          case OP_TABLE_LENGTH +
722            ((sizeof(coptable) == OP_TABLE_LENGTH) &&
723             (sizeof(poptable) == OP_TABLE_LENGTH)):
724          break;
725    
726  /* ========================================================================== */  /* ========================================================================== */
727        /* Reached a closing bracket. If not at the end of the pattern, carry        /* Reached a closing bracket. If not at the end of the pattern, carry
# Line 906  for (;;) Line 922  for (;;)
922            if (utf8) BACKCHAR(temp);            if (utf8) BACKCHAR(temp);
923  #endif  #endif
924            GETCHARTEST(d, temp);            GETCHARTEST(d, temp);
925    #ifdef SUPPORT_UCP
926              if ((md->poptions & PCRE_UCP) != 0)
927                {
928                if (d == '_') left_word = TRUE; else
929                  {
930                  int cat = UCD_CATEGORY(d);
931                  left_word = (cat == ucp_L || cat == ucp_N);
932                  }
933                }
934              else
935    #endif
936            left_word = d < 256 && (ctypes[d] & ctype_word) != 0;            left_word = d < 256 && (ctypes[d] & ctype_word) != 0;
937            }            }
938          else left_word = 0;          else left_word = FALSE;
939    
940          if (clen > 0)          if (clen > 0)
941              {
942    #ifdef SUPPORT_UCP
943              if ((md->poptions & PCRE_UCP) != 0)
944                {
945                if (c == '_') right_word = TRUE; else
946                  {
947                  int cat = UCD_CATEGORY(c);
948                  right_word = (cat == ucp_L || cat == ucp_N);
949                  }
950                }
951              else
952    #endif
953            right_word = c < 256 && (ctypes[c] & ctype_word) != 0;            right_word = c < 256 && (ctypes[c] & ctype_word) != 0;
954          else right_word = 0;            }
955            else right_word = FALSE;
956    
957          if ((left_word == right_word) == (codevalue == OP_NOT_WORD_BOUNDARY))          if ((left_word == right_word) == (codevalue == OP_NOT_WORD_BOUNDARY))
958            { ADD_ACTIVE(state_offset + 1, 0); }            { ADD_ACTIVE(state_offset + 1, 0); }
# Line 939  for (;;) Line 979  for (;;)
979            break;            break;
980    
981            case PT_LAMP:            case PT_LAMP:
982            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll || prop->chartype == ucp_Lt;            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
983                   prop->chartype == ucp_Lt;
984            break;            break;
985    
986            case PT_GC:            case PT_GC:
# Line 953  for (;;) Line 994  for (;;)
994            case PT_SC:            case PT_SC:
995            OK = prop->script == code[2];            OK = prop->script == code[2];
996            break;            break;
997    
998              /* These are specials for combination cases. */
999    
1000              case PT_ALNUM:
1001              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1002                   _pcre_ucp_gentype[prop->chartype] == ucp_N;
1003              break;
1004    
1005              case PT_SPACE:    /* Perl space */
1006              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1007                   c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1008              break;
1009    
1010              case PT_PXSPACE:  /* POSIX space */
1011              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1012                   c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1013                   c == CHAR_FF || c == CHAR_CR;
1014              break;
1015    
1016              case PT_WORD:
1017              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1018                   _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1019                   c == CHAR_UNDERSCORE;
1020              break;
1021    
1022            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1023    
# Line 1108  for (;;) Line 1173  for (;;)
1173            break;            break;
1174    
1175            case PT_LAMP:            case PT_LAMP:
1176            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll || prop->chartype == ucp_Lt;            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1177                prop->chartype == ucp_Lt;
1178            break;            break;
1179    
1180            case PT_GC:            case PT_GC:
# Line 1123  for (;;) Line 1189  for (;;)
1189            OK = prop->script == code[3];            OK = prop->script == code[3];
1190            break;            break;
1191    
1192              /* These are specials for combination cases. */
1193    
1194              case PT_ALNUM:
1195              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1196                   _pcre_ucp_gentype[prop->chartype] == ucp_N;
1197              break;
1198    
1199              case PT_SPACE:    /* Perl space */
1200              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1201                   c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1202              break;
1203    
1204              case PT_PXSPACE:  /* POSIX space */
1205              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1206                   c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1207                   c == CHAR_FF || c == CHAR_CR;
1208              break;
1209    
1210              case PT_WORD:
1211              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1212                   _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1213                   c == CHAR_UNDERSCORE;
1214              break;
1215    
1216            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1217    
1218            default:            default:
# Line 1330  for (;;) Line 1420  for (;;)
1420            break;            break;
1421    
1422            case PT_LAMP:            case PT_LAMP:
1423            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll || prop->chartype == ucp_Lt;            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1424                prop->chartype == ucp_Lt;
1425            break;            break;
1426    
1427            case PT_GC:            case PT_GC:
# Line 1344  for (;;) Line 1435  for (;;)
1435            case PT_SC:            case PT_SC:
1436            OK = prop->script == code[3];            OK = prop->script == code[3];
1437            break;            break;
1438    
1439              /* These are specials for combination cases. */
1440    
1441              case PT_ALNUM:
1442              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1443                   _pcre_ucp_gentype[prop->chartype] == ucp_N;
1444              break;
1445    
1446              case PT_SPACE:    /* Perl space */
1447              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1448                   c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1449              break;
1450    
1451              case PT_PXSPACE:  /* POSIX space */
1452              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1453                   c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1454                   c == CHAR_FF || c == CHAR_CR;
1455              break;
1456    
1457              case PT_WORD:
1458              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1459                   _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1460                   c == CHAR_UNDERSCORE;
1461              break;
1462    
1463            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1464    
# Line 1577  for (;;) Line 1692  for (;;)
1692            break;            break;
1693    
1694            case PT_LAMP:            case PT_LAMP:
1695            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll || prop->chartype == ucp_Lt;            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1696                prop->chartype == ucp_Lt;
1697            break;            break;
1698    
1699            case PT_GC:            case PT_GC:
# Line 1591  for (;;) Line 1707  for (;;)
1707            case PT_SC:            case PT_SC:
1708            OK = prop->script == code[5];            OK = prop->script == code[5];
1709            break;            break;
1710    
1711              /* These are specials for combination cases. */
1712    
1713              case PT_ALNUM:
1714              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1715                   _pcre_ucp_gentype[prop->chartype] == ucp_N;
1716              break;
1717    
1718              case PT_SPACE:    /* Perl space */
1719              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1720                   c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1721              break;
1722    
1723              case PT_PXSPACE:  /* POSIX space */
1724              OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1725                   c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1726                   c == CHAR_FF || c == CHAR_CR;
1727              break;
1728    
1729              case PT_WORD:
1730              OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1731                   _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1732                   c == CHAR_UNDERSCORE;
1733              break;
1734    
1735            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1736    
# Line 2298  for (;;) Line 2438  for (;;)
2438            ims,                                  /* the current ims flags */            ims,                                  /* the current ims flags */
2439            rlevel,                               /* function recursion level */            rlevel,                               /* function recursion level */
2440            recursing);                           /* pass on regex recursion */            recursing);                           /* pass on regex recursion */
2441    
2442          if (rc == PCRE_ERROR_DFA_UITEM) return rc;          if (rc == PCRE_ERROR_DFA_UITEM) return rc;
2443          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))
2444              { ADD_ACTIVE(endasscode + LINK_SIZE + 1 - start_code, 0); }              { ADD_ACTIVE(endasscode + LINK_SIZE + 1 - start_code, 0); }
# Line 2991  for (;;) Line 3131  for (;;)
3131        bytes to avoid spending too much time in this optimization. */        bytes to avoid spending too much time in this optimization. */
3132    
3133        if (study != NULL && (study->flags & PCRE_STUDY_MINLEN) != 0 &&        if (study != NULL && (study->flags & PCRE_STUDY_MINLEN) != 0 &&
3134            end_subject - current_subject < study->minlength)            (pcre_uint32)(end_subject - current_subject) < study->minlength)
3135          return PCRE_ERROR_NOMATCH;          return PCRE_ERROR_NOMATCH;
3136    
3137        /* If req_byte is set, we know that that character must appear in the        /* If req_byte is set, we know that that character must appear in the

Legend:
Removed from v.473  
changed lines
  Added in v.518

  ViewVC Help
Powered by ViewVC 1.1.5