/[pcre]/code/trunk/pcre_dfa_exec.c
ViewVC logotype

Diff of /code/trunk/pcre_dfa_exec.c

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 518 by ph10, Tue May 18 15:47:01 2010 UTC revision 637 by ph10, Sun Jul 24 17:44:12 2011 UTC
# Line 7  and semantics are as close as possible t Line 7  and semantics are as close as possible t
7  below for why this module is different).  below for why this module is different).
8    
9                         Written by Philip Hazel                         Written by Philip Hazel
10             Copyright (c) 1997-2010 University of Cambridge             Copyright (c) 1997-2011 University of Cambridge
11    
12  -----------------------------------------------------------------------------  -----------------------------------------------------------------------------
13  Redistribution and use in source and binary forms, with or without  Redistribution and use in source and binary forms, with or without
# Line 121  static const uschar coptable[] = { Line 121  static const uschar coptable[] = {
121    0, 0,                          /* \P, \p                                 */    0, 0,                          /* \P, \p                                 */
122    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */
123    0,                             /* \X                                     */    0,                             /* \X                                     */
124    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0, 0,              /* \Z, \z, ^, ^M, $, $M                   */
125    1,                             /* Char                                   */    1,                             /* Char                                   */
126    1,                             /* Charnc                                 */    1,                             /* Chari                                  */
127    1,                             /* not                                    */    1,                             /* not                                    */
128      1,                             /* noti                                   */
129    /* Positive single-char repeats                                          */    /* Positive single-char repeats                                          */
130    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */
131    3, 3, 3,                       /* upto, minupto, exact                   */    3, 3, 3,                       /* upto, minupto, exact                   */
132    1, 1, 1, 3,                    /* *+, ++, ?+, upto+                      */    1, 1, 1, 3,                    /* *+, ++, ?+, upto+                      */
133      1, 1, 1, 1, 1, 1,              /* *I, *?I, +I, +?I, ?I, ??I              */
134      3, 3, 3,                       /* upto I, minupto I, exact I             */
135      1, 1, 1, 3,                    /* *+I, ++I, ?+I, upto+I                  */
136    /* Negative single-char repeats - only for chars < 256                   */    /* Negative single-char repeats - only for chars < 256                   */
137    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */
138    3, 3, 3,                       /* NOT upto, minupto, exact               */    3, 3, 3,                       /* NOT upto, minupto, exact               */
139    1, 1, 1, 3,                    /* NOT *+, ++, ?+, updo+                  */    1, 1, 1, 3,                    /* NOT *+, ++, ?+, upto+                  */
140      1, 1, 1, 1, 1, 1,              /* NOT *I, *?I, +I, +?I, ?I, ??I          */
141      3, 3, 3,                       /* NOT upto I, minupto I, exact I         */
142      1, 1, 1, 3,                    /* NOT *+I, ++I, ?+I, upto+I              */
143    /* Positive type repeats                                                 */    /* Positive type repeats                                                 */
144    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */
145    3, 3, 3,                       /* Type upto, minupto, exact              */    3, 3, 3,                       /* Type upto, minupto, exact              */
# Line 144  static const uschar coptable[] = { Line 151  static const uschar coptable[] = {
151    0,                             /* NCLASS                                 */    0,                             /* NCLASS                                 */
152    0,                             /* XCLASS - variable length               */    0,                             /* XCLASS - variable length               */
153    0,                             /* REF                                    */    0,                             /* REF                                    */
154      0,                             /* REFI                                   */
155    0,                             /* RECURSE                                */    0,                             /* RECURSE                                */
156    0,                             /* CALLOUT                                */    0,                             /* CALLOUT                                */
157    0,                             /* Alt                                    */    0,                             /* Alt                                    */
158    0,                             /* Ket                                    */    0,                             /* Ket                                    */
159    0,                             /* KetRmax                                */    0,                             /* KetRmax                                */
160    0,                             /* KetRmin                                */    0,                             /* KetRmin                                */
161      0,                             /* KetRpos                                */
162      0,                             /* Reverse                                */
163    0,                             /* Assert                                 */    0,                             /* Assert                                 */
164    0,                             /* Assert not                             */    0,                             /* Assert not                             */
165    0,                             /* Assert behind                          */    0,                             /* Assert behind                          */
166    0,                             /* Assert behind not                      */    0,                             /* Assert behind not                      */
167    0,                             /* Reverse                                */    0, 0, 0, 0, 0, 0,              /* ONCE, BRA, BRAPOS, CBRA, CBRAPOS, COND */
168    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0, 0,                 /* SBRA, SBRAPOS, SCBRA, SCBRAPOS, SCOND  */
   0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */  
169    0, 0,                          /* CREF, NCREF                            */    0, 0,                          /* CREF, NCREF                            */
170    0, 0,                          /* RREF, NRREF                            */    0, 0,                          /* RREF, NRREF                            */
171    0,                             /* DEF                                    */    0,                             /* DEF                                    */
172    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0, 0,                       /* BRAZERO, BRAMINZERO, BRAPOSZERO        */
173    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG                 */
174    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG         */
175    0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */    0, 0, 0, 0,                    /* COMMIT, FAIL, ACCEPT, ASSERT_ACCEPT    */
176      0, 0                           /* CLOSE, SKIPZERO  */
177  };  };
178    
179  /* This table identifies those opcodes that inspect a character. It is used to  /* This table identifies those opcodes that inspect a character. It is used to
# Line 179  static const uschar poptable[] = { Line 189  static const uschar poptable[] = {
189    1, 1,                          /* \P, \p                                 */    1, 1,                          /* \P, \p                                 */
190    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */
191    1,                             /* \X                                     */    1,                             /* \X                                     */
192    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0, 0,              /* \Z, \z, ^, ^M, $, $M                   */
193    1,                             /* Char                                   */    1,                             /* Char                                   */
194    1,                             /* Charnc                                 */    1,                             /* Chari                                  */
195    1,                             /* not                                    */    1,                             /* not                                    */
196      1,                             /* noti                                   */
197    /* Positive single-char repeats                                          */    /* Positive single-char repeats                                          */
198    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */
199    1, 1, 1,                       /* upto, minupto, exact                   */    1, 1, 1,                       /* upto, minupto, exact                   */
200    1, 1, 1, 1,                    /* *+, ++, ?+, upto+                      */    1, 1, 1, 1,                    /* *+, ++, ?+, upto+                      */
201      1, 1, 1, 1, 1, 1,              /* *I, *?I, +I, +?I, ?I, ??I              */
202      1, 1, 1,                       /* upto I, minupto I, exact I             */
203      1, 1, 1, 1,                    /* *+I, ++I, ?+I, upto+I                  */
204    /* Negative single-char repeats - only for chars < 256                   */    /* Negative single-char repeats - only for chars < 256                   */
205    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */
206    1, 1, 1,                       /* NOT upto, minupto, exact               */    1, 1, 1,                       /* NOT upto, minupto, exact               */
207    1, 1, 1, 1,                    /* NOT *+, ++, ?+, upto+                  */    1, 1, 1, 1,                    /* NOT *+, ++, ?+, upto+                  */
208      1, 1, 1, 1, 1, 1,              /* NOT *I, *?I, +I, +?I, ?I, ??I          */
209      1, 1, 1,                       /* NOT upto I, minupto I, exact I         */
210      1, 1, 1, 1,                    /* NOT *+I, ++I, ?+I, upto+I              */
211    /* Positive type repeats                                                 */    /* Positive type repeats                                                 */
212    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */
213    1, 1, 1,                       /* Type upto, minupto, exact              */    1, 1, 1,                       /* Type upto, minupto, exact              */
# Line 202  static const uschar poptable[] = { Line 219  static const uschar poptable[] = {
219    1,                             /* NCLASS                                 */    1,                             /* NCLASS                                 */
220    1,                             /* XCLASS - variable length               */    1,                             /* XCLASS - variable length               */
221    0,                             /* REF                                    */    0,                             /* REF                                    */
222      0,                             /* REFI                                   */
223    0,                             /* RECURSE                                */    0,                             /* RECURSE                                */
224    0,                             /* CALLOUT                                */    0,                             /* CALLOUT                                */
225    0,                             /* Alt                                    */    0,                             /* Alt                                    */
226    0,                             /* Ket                                    */    0,                             /* Ket                                    */
227    0,                             /* KetRmax                                */    0,                             /* KetRmax                                */
228    0,                             /* KetRmin                                */    0,                             /* KetRmin                                */
229      0,                             /* KetRpos                                */
230      0,                             /* Reverse                                */
231    0,                             /* Assert                                 */    0,                             /* Assert                                 */
232    0,                             /* Assert not                             */    0,                             /* Assert not                             */
233    0,                             /* Assert behind                          */    0,                             /* Assert behind                          */
234    0,                             /* Assert behind not                      */    0,                             /* Assert behind not                      */
235    0,                             /* Reverse                                */    0, 0, 0, 0, 0, 0,              /* ONCE, BRA, BRAPOS, CBRA, CBRAPOS, COND */
236    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0, 0,                 /* SBRA, SBRAPOS, SCBRA, SCBRAPOS, SCOND  */
   0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */  
237    0, 0,                          /* CREF, NCREF                            */    0, 0,                          /* CREF, NCREF                            */
238    0, 0,                          /* RREF, NRREF                            */    0, 0,                          /* RREF, NRREF                            */
239    0,                             /* DEF                                    */    0,                             /* DEF                                    */
240    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0, 0,                       /* BRAZERO, BRAMINZERO, BRAPOSZERO        */
241    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG                 */
242    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG         */
243    0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */    0, 0, 0, 0,                    /* COMMIT, FAIL, ACCEPT, ASSERT_ACCEPT    */
244      0, 0                           /* CLOSE, SKIPZERO                        */
245  };  };
246    
247  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,
# Line 252  these structures in, is a vector of ints Line 272  these structures in, is a vector of ints
272  typedef struct stateblock {  typedef struct stateblock {
273    int offset;                     /* Offset to opcode */    int offset;                     /* Offset to opcode */
274    int count;                      /* Count for repeats */    int count;                      /* Count for repeats */
   int ims;                        /* ims flag bits */  
275    int data;                       /* Some use extra data */    int data;                       /* Some use extra data */
276  } stateblock;  } stateblock;
277    
# Line 308  Arguments: Line 327  Arguments:
327    offsetcount       size of same    offsetcount       size of same
328    workspace         vector of workspace    workspace         vector of workspace
329    wscount           size of same    wscount           size of same
   ims               the current ims flags  
330    rlevel            function call recursion level    rlevel            function call recursion level
331    recursing         regex recursive call level    recursing         regex recursive call level
332    
# Line 325  for the current character, one for the f Line 343  for the current character, one for the f
343      { \      { \
344      next_active_state->offset = (x); \      next_active_state->offset = (x); \
345      next_active_state->count  = (y); \      next_active_state->count  = (y); \
     next_active_state->ims    = ims; \  
346      next_active_state++; \      next_active_state++; \
347      DPRINTF(("%.*sADD_ACTIVE(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \      DPRINTF(("%.*sADD_ACTIVE(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \
348      } \      } \
# Line 336  for the current character, one for the f Line 353  for the current character, one for the f
353      { \      { \
354      next_active_state->offset = (x); \      next_active_state->offset = (x); \
355      next_active_state->count  = (y); \      next_active_state->count  = (y); \
     next_active_state->ims    = ims; \  
356      next_active_state->data   = (z); \      next_active_state->data   = (z); \
357      next_active_state++; \      next_active_state++; \
358      DPRINTF(("%.*sADD_ACTIVE_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \      DPRINTF(("%.*sADD_ACTIVE_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \
# Line 348  for the current character, one for the f Line 364  for the current character, one for the f
364      { \      { \
365      next_new_state->offset = (x); \      next_new_state->offset = (x); \
366      next_new_state->count  = (y); \      next_new_state->count  = (y); \
     next_new_state->ims    = ims; \  
367      next_new_state++; \      next_new_state++; \
368      DPRINTF(("%.*sADD_NEW(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \      DPRINTF(("%.*sADD_NEW(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \
369      } \      } \
# Line 359  for the current character, one for the f Line 374  for the current character, one for the f
374      { \      { \
375      next_new_state->offset = (x); \      next_new_state->offset = (x); \
376      next_new_state->count  = (y); \      next_new_state->count  = (y); \
     next_new_state->ims    = ims; \  
377      next_new_state->data   = (z); \      next_new_state->data   = (z); \
378      next_new_state++; \      next_new_state++; \
379      DPRINTF(("%.*sADD_NEW_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \      DPRINTF(("%.*sADD_NEW_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \
# Line 378  internal_dfa_exec( Line 392  internal_dfa_exec(
392    int offsetcount,    int offsetcount,
393    int *workspace,    int *workspace,
394    int wscount,    int wscount,
   int ims,  
395    int  rlevel,    int  rlevel,
396    int  recursing)    int  recursing)
397  {  {
# Line 426  next_new_state = new_states = active_sta Line 439  next_new_state = new_states = active_sta
439  new_count = 0;  new_count = 0;
440    
441  first_op = this_start_code + 1 + LINK_SIZE +  first_op = this_start_code + 1 + LINK_SIZE +
442    ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA)? 2:0);    ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA ||
443        *this_start_code == OP_CBRAPOS || *this_start_code == OP_SCBRAPOS)? 2:0);
444    
445  /* The first thing in any (sub) pattern is a bracket of some sort. Push all  /* The first thing in any (sub) pattern is a bracket of some sort. Push all
446  the alternative states onto the list, and find out where the end is. This  the alternative states onto the list, and find out where the end is. This
# Line 475  if (*first_op == OP_REVERSE) Line 489  if (*first_op == OP_REVERSE)
489    
490      {      {
491      gone_back = (current_subject - max_back < start_subject)?      gone_back = (current_subject - max_back < start_subject)?
492        current_subject - start_subject : max_back;        (int)(current_subject - start_subject) : max_back;
493      current_subject -= gone_back;      current_subject -= gone_back;
494      }      }
495    
# Line 492  if (*first_op == OP_REVERSE) Line 506  if (*first_op == OP_REVERSE)
506      int back = GET(end_code, 2+LINK_SIZE);      int back = GET(end_code, 2+LINK_SIZE);
507      if (back <= gone_back)      if (back <= gone_back)
508        {        {
509        int bstate = end_code - start_code + 2 + 2*LINK_SIZE;        int bstate = (int)(end_code - start_code + 2 + 2*LINK_SIZE);
510        ADD_NEW_DATA(-bstate, 0, gone_back - back);        ADD_NEW_DATA(-bstate, 0, gone_back - back);
511        }        }
512      end_code += GET(end_code, 1);      end_code += GET(end_code, 1);
# Line 525  else Line 539  else
539    else    else
540      {      {
541      int length = 1 + LINK_SIZE +      int length = 1 + LINK_SIZE +
542        ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA)? 2:0);        ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA ||
543            *this_start_code == OP_CBRAPOS || *this_start_code == OP_SCBRAPOS)?
544            2:0);
545      do      do
546        {        {
547        ADD_NEW(end_code - start_code + length, 0);        ADD_NEW((int)(end_code - start_code + length), 0);
548        end_code += GET(end_code, 1);        end_code += GET(end_code, 1);
549        length = 1 + LINK_SIZE;        length = 1 + LINK_SIZE;
550        }        }
# Line 605  for (;;) Line 621  for (;;)
621    for (i = 0; i < active_count; i++)    for (i = 0; i < active_count; i++)
622      {      {
623      stateblock *current_state = active_states + i;      stateblock *current_state = active_states + i;
624        BOOL caseless = FALSE;
625      const uschar *code;      const uschar *code;
626      int state_offset = current_state->offset;      int state_offset = current_state->offset;
627      int count, codevalue, rrc;      int count, codevalue, rrc;
# Line 616  for (;;) Line 633  for (;;)
633          else printf("0x%02x\n", c);          else printf("0x%02x\n", c);
634  #endif  #endif
635    
     /* This variable is referred to implicity in the ADD_xxx macros. */  
   
     ims = current_state->ims;  
   
636      /* A negative offset is a special case meaning "hold off going to this      /* A negative offset is a special case meaning "hold off going to this
637      (negated) state until the number of characters in the data field have      (negated) state until the number of characters in the data field have
638      been skipped". */      been skipped". */
# Line 725  for (;;) Line 738  for (;;)
738    
739  /* ========================================================================== */  /* ========================================================================== */
740        /* Reached a closing bracket. If not at the end of the pattern, carry        /* Reached a closing bracket. If not at the end of the pattern, carry
741        on with the next opcode. Otherwise, unless we have an empty string and        on with the next opcode. For repeating opcodes, also add the repeat
742          state. Note that KETRPOS will always be encountered at the end of the
743          subpattern, because the possessive subpattern repeats are always handled
744          using recursive calls. Thus, it never adds any new states.
745    
746          At the end of the (sub)pattern, unless we have an empty string and
747        PCRE_NOTEMPTY is set, or PCRE_NOTEMPTY_ATSTART is set and we are at the        PCRE_NOTEMPTY is set, or PCRE_NOTEMPTY_ATSTART is set and we are at the
748        start of the subject, save the match data, shifting up all previous        start of the subject, save the match data, shifting up all previous
749        matches so we always have the longest first. */        matches so we always have the longest first. */
# Line 733  for (;;) Line 751  for (;;)
751        case OP_KET:        case OP_KET:
752        case OP_KETRMIN:        case OP_KETRMIN:
753        case OP_KETRMAX:        case OP_KETRMAX:
754          case OP_KETRPOS:
755        if (code != end_code)        if (code != end_code)
756          {          {
757          ADD_ACTIVE(state_offset + 1 + LINK_SIZE, 0);          ADD_ACTIVE(state_offset + 1 + LINK_SIZE, 0);
# Line 755  for (;;) Line 774  for (;;)
774            if (count > 0) memmove(offsets + 2, offsets, count * sizeof(int));            if (count > 0) memmove(offsets + 2, offsets, count * sizeof(int));
775            if (offsetcount >= 2)            if (offsetcount >= 2)
776              {              {
777              offsets[0] = current_subject - start_subject;              offsets[0] = (int)(current_subject - start_subject);
778              offsets[1] = ptr - start_subject;              offsets[1] = (int)(ptr - start_subject);
779              DPRINTF(("%.*sSet matched string = \"%.*s\"\n", rlevel*2-2, SP,              DPRINTF(("%.*sSet matched string = \"%.*s\"\n", rlevel*2-2, SP,
780                offsets[1] - offsets[0], current_subject));                offsets[1] - offsets[0], current_subject));
781              }              }
# Line 778  for (;;) Line 797  for (;;)
797        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
798        case OP_ALT:        case OP_ALT:
799        do { code += GET(code, 1); } while (*code == OP_ALT);        do { code += GET(code, 1); } while (*code == OP_ALT);
800        ADD_ACTIVE(code - start_code, 0);        ADD_ACTIVE((int)(code - start_code), 0);
801        break;        break;
802    
803        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
# Line 786  for (;;) Line 805  for (;;)
805        case OP_SBRA:        case OP_SBRA:
806        do        do
807          {          {
808          ADD_ACTIVE(code - start_code + 1 + LINK_SIZE, 0);          ADD_ACTIVE((int)(code - start_code + 1 + LINK_SIZE), 0);
809          code += GET(code, 1);          code += GET(code, 1);
810          }          }
811        while (*code == OP_ALT);        while (*code == OP_ALT);
# Line 795  for (;;) Line 814  for (;;)
814        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
815        case OP_CBRA:        case OP_CBRA:
816        case OP_SCBRA:        case OP_SCBRA:
817        ADD_ACTIVE(code - start_code + 3 + LINK_SIZE,  0);        ADD_ACTIVE((int)(code - start_code + 3 + LINK_SIZE),  0);
818        code += GET(code, 1);        code += GET(code, 1);
819        while (*code == OP_ALT)        while (*code == OP_ALT)
820          {          {
821          ADD_ACTIVE(code - start_code + 1 + LINK_SIZE,  0);          ADD_ACTIVE((int)(code - start_code + 1 + LINK_SIZE),  0);
822          code += GET(code, 1);          code += GET(code, 1);
823          }          }
824        break;        break;
# Line 810  for (;;) Line 829  for (;;)
829        ADD_ACTIVE(state_offset + 1, 0);        ADD_ACTIVE(state_offset + 1, 0);
830        code += 1 + GET(code, 2);        code += 1 + GET(code, 2);
831        while (*code == OP_ALT) code += GET(code, 1);        while (*code == OP_ALT) code += GET(code, 1);
832        ADD_ACTIVE(code - start_code + 1 + LINK_SIZE, 0);        ADD_ACTIVE((int)(code - start_code + 1 + LINK_SIZE), 0);
833        break;        break;
834    
835        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
836        case OP_SKIPZERO:        case OP_SKIPZERO:
837        code += 1 + GET(code, 2);        code += 1 + GET(code, 2);
838        while (*code == OP_ALT) code += GET(code, 1);        while (*code == OP_ALT) code += GET(code, 1);
839        ADD_ACTIVE(code - start_code + 1 + LINK_SIZE, 0);        ADD_ACTIVE((int)(code - start_code + 1 + LINK_SIZE), 0);
840        break;        break;
841    
842        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
843        case OP_CIRC:        case OP_CIRC:
844        if ((ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0) ||        if (ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0)
           ((ims & PCRE_MULTILINE) != 0 &&  
             ptr != end_subject &&  
             WAS_NEWLINE(ptr)))  
845          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
846        break;        break;
847    
848        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
849        case OP_EOD:        case OP_CIRCM:
850        if (ptr >= end_subject) { ADD_ACTIVE(state_offset + 1, 0); }        if ((ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0) ||
851              (ptr != end_subject && WAS_NEWLINE(ptr)))
852            { ADD_ACTIVE(state_offset + 1, 0); }
853        break;        break;
854    
855        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
856        case OP_OPT:        case OP_EOD:
857        ims = code[1];        if (ptr >= end_subject)
858        ADD_ACTIVE(state_offset + 2, 0);          {
859            if ((md->moptions & PCRE_PARTIAL_HARD) != 0)
860              could_continue = TRUE;
861            else { ADD_ACTIVE(state_offset + 1, 0); }
862            }
863        break;        break;
864    
865        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
# Line 871  for (;;) Line 893  for (;;)
893    
894        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
895        case OP_EODN:        case OP_EODN:
896        if (clen == 0 || (IS_NEWLINE(ptr) && ptr == end_subject - md->nllen))        if (clen == 0 && (md->moptions & PCRE_PARTIAL_HARD) != 0)
897            could_continue = TRUE;
898          else if (clen == 0 || (IS_NEWLINE(ptr) && ptr == end_subject - md->nllen))
899          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
900        break;        break;
901    
# Line 879  for (;;) Line 903  for (;;)
903        case OP_DOLL:        case OP_DOLL:
904        if ((md->moptions & PCRE_NOTEOL) == 0)        if ((md->moptions & PCRE_NOTEOL) == 0)
905          {          {
906          if (clen == 0 ||          if (clen == 0 && (md->moptions & PCRE_PARTIAL_HARD) != 0)
907              could_continue = TRUE;
908            else if (clen == 0 ||
909              ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr) &&              ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr) &&
910                 ((ims & PCRE_MULTILINE) != 0 || ptr == end_subject - md->nllen)                 (ptr == end_subject - md->nllen)
911              ))              ))
912            { ADD_ACTIVE(state_offset + 1, 0); }            { ADD_ACTIVE(state_offset + 1, 0); }
913          }          }
914        else if ((ims & PCRE_MULTILINE) != 0 && IS_NEWLINE(ptr))        break;
915    
916          /*-----------------------------------------------------------------*/
917          case OP_DOLLM:
918          if ((md->moptions & PCRE_NOTEOL) == 0)
919            {
920            if (clen == 0 && (md->moptions & PCRE_PARTIAL_HARD) != 0)
921              could_continue = TRUE;
922            else if (clen == 0 ||
923                ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr)))
924              { ADD_ACTIVE(state_offset + 1, 0); }
925            }
926          else if (IS_NEWLINE(ptr))
927          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
928        break;        break;
929    
# Line 922  for (;;) Line 960  for (;;)
960            if (utf8) BACKCHAR(temp);            if (utf8) BACKCHAR(temp);
961  #endif  #endif
962            GETCHARTEST(d, temp);            GETCHARTEST(d, temp);
963  #ifdef SUPPORT_UCP  #ifdef SUPPORT_UCP
964            if ((md->poptions & PCRE_UCP) != 0)            if ((md->poptions & PCRE_UCP) != 0)
965              {              {
966              if (d == '_') left_word = TRUE; else              if (d == '_') left_word = TRUE; else
967                {                {
968                int cat = UCD_CATEGORY(d);                int cat = UCD_CATEGORY(d);
969                left_word = (cat == ucp_L || cat == ucp_N);                left_word = (cat == ucp_L || cat == ucp_N);
970                }                }
971              }              }
972            else            else
973  #endif  #endif
974            left_word = d < 256 && (ctypes[d] & ctype_word) != 0;            left_word = d < 256 && (ctypes[d] & ctype_word) != 0;
975            }            }
976          else left_word = FALSE;          else left_word = FALSE;
977    
978          if (clen > 0)          if (clen > 0)
979            {            {
980  #ifdef SUPPORT_UCP  #ifdef SUPPORT_UCP
981            if ((md->poptions & PCRE_UCP) != 0)            if ((md->poptions & PCRE_UCP) != 0)
982              {              {
983              if (c == '_') right_word = TRUE; else              if (c == '_') right_word = TRUE; else
984                {                {
985                int cat = UCD_CATEGORY(c);                int cat = UCD_CATEGORY(c);
986                right_word = (cat == ucp_L || cat == ucp_N);                right_word = (cat == ucp_L || cat == ucp_N);
987                }                }
988              }              }
989            else            else
990  #endif  #endif
991            right_word = c < 256 && (ctypes[c] & ctype_word) != 0;            right_word = c < 256 && (ctypes[c] & ctype_word) != 0;
992            }            }
993          else right_word = FALSE;          else right_word = FALSE;
994    
995          if ((left_word == right_word) == (codevalue == OP_NOT_WORD_BOUNDARY))          if ((left_word == right_word) == (codevalue == OP_NOT_WORD_BOUNDARY))
# Line 979  for (;;) Line 1017  for (;;)
1017            break;            break;
1018    
1019            case PT_LAMP:            case PT_LAMP:
1020            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1021                 prop->chartype == ucp_Lt;                 prop->chartype == ucp_Lt;
1022            break;            break;
1023    
# Line 994  for (;;) Line 1032  for (;;)
1032            case PT_SC:            case PT_SC:
1033            OK = prop->script == code[2];            OK = prop->script == code[2];
1034            break;            break;
1035    
1036            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1037    
1038            case PT_ALNUM:            case PT_ALNUM:
1039            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1040                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1041            break;            break;
1042    
1043            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1044            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1045                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1046            break;            break;
1047    
1048            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1049            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1050                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1051                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1052            break;            break;
1053    
1054            case PT_WORD:            case PT_WORD:
1055            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1056                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1057                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1058            break;            break;
1059    
1060            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1061    
# Line 1173  for (;;) Line 1211  for (;;)
1211            break;            break;
1212    
1213            case PT_LAMP:            case PT_LAMP:
1214            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1215              prop->chartype == ucp_Lt;              prop->chartype == ucp_Lt;
1216            break;            break;
1217    
# Line 1190  for (;;) Line 1228  for (;;)
1228            break;            break;
1229    
1230            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1231    
1232            case PT_ALNUM:            case PT_ALNUM:
1233            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1234                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1235            break;            break;
1236    
1237            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1238            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1239                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1240            break;            break;
1241    
1242            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1243            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1244                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1245                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1246            break;            break;
1247    
1248            case PT_WORD:            case PT_WORD:
1249            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1250                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1251                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1252            break;            break;
1253    
1254            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1255    
# Line 1420  for (;;) Line 1458  for (;;)
1458            break;            break;
1459    
1460            case PT_LAMP:            case PT_LAMP:
1461            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1462              prop->chartype == ucp_Lt;              prop->chartype == ucp_Lt;
1463            break;            break;
1464    
# Line 1435  for (;;) Line 1473  for (;;)
1473            case PT_SC:            case PT_SC:
1474            OK = prop->script == code[3];            OK = prop->script == code[3];
1475            break;            break;
1476    
1477            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1478    
1479            case PT_ALNUM:            case PT_ALNUM:
1480            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1481                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1482            break;            break;
1483    
1484            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1485            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1486                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1487            break;            break;
1488    
1489            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1490            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1491                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1492                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1493            break;            break;
1494    
1495            case PT_WORD:            case PT_WORD:
1496            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1497                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1498                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1499            break;            break;
1500    
1501            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1502    
# Line 1692  for (;;) Line 1730  for (;;)
1730            break;            break;
1731    
1732            case PT_LAMP:            case PT_LAMP:
1733            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1734              prop->chartype == ucp_Lt;              prop->chartype == ucp_Lt;
1735            break;            break;
1736    
# Line 1707  for (;;) Line 1745  for (;;)
1745            case PT_SC:            case PT_SC:
1746            OK = prop->script == code[5];            OK = prop->script == code[5];
1747            break;            break;
1748    
1749            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1750    
1751            case PT_ALNUM:            case PT_ALNUM:
1752            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1753                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1754            break;            break;
1755    
1756            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1757            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1758                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1759            break;            break;
1760    
1761            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1762            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1763                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1764                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1765            break;            break;
1766    
1767            case PT_WORD:            case PT_WORD:
1768            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1769                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1770                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1771            break;            break;
1772    
1773            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1774    
# Line 1941  for (;;) Line 1979  for (;;)
1979        break;        break;
1980    
1981        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
1982        case OP_CHARNC:        case OP_CHARI:
1983        if (clen == 0) break;        if (clen == 0) break;
1984    
1985  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
# Line 2127  for (;;) Line 2165  for (;;)
2165        break;        break;
2166    
2167        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2168        /* Match a negated single character. This is only used for one-byte        /* Match a negated single character casefully. This is only used for
2169        characters, that is, we know that d < 256. The character we are        one-byte characters, that is, we know that d < 256. The character we are
2170        checking (c) can be multibyte. */        checking (c) can be multibyte. */
2171    
2172        case OP_NOT:        case OP_NOT:
2173        if (clen > 0)        if (clen > 0 && c != d) { ADD_NEW(state_offset + dlen + 1, 0); }
         {  
         unsigned int otherd = ((ims & PCRE_CASELESS) != 0)? fcc[d] : d;  
         if (c != d && c != otherd) { ADD_NEW(state_offset + dlen + 1, 0); }  
         }  
2174        break;        break;
2175    
2176        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2177          /* Match a negated single character caselessly. This is only used for
2178          one-byte characters, that is, we know that d < 256. The character we are
2179          checking (c) can be multibyte. */
2180    
2181          case OP_NOTI:
2182          if (clen > 0 && c != d && c != fcc[d])
2183            { ADD_NEW(state_offset + dlen + 1, 0); }
2184          break;
2185    
2186          /*-----------------------------------------------------------------*/
2187          case OP_PLUSI:
2188          case OP_MINPLUSI:
2189          case OP_POSPLUSI:
2190          case OP_NOTPLUSI:
2191          case OP_NOTMINPLUSI:
2192          case OP_NOTPOSPLUSI:
2193          caseless = TRUE;
2194          codevalue -= OP_STARI - OP_STAR;
2195    
2196          /* Fall through */
2197        case OP_PLUS:        case OP_PLUS:
2198        case OP_MINPLUS:        case OP_MINPLUS:
2199        case OP_POSPLUS:        case OP_POSPLUS:
# Line 2151  for (;;) Line 2205  for (;;)
2205        if (clen > 0)        if (clen > 0)
2206          {          {
2207          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2208          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2209            {            {
2210  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2211            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2179  for (;;) Line 2233  for (;;)
2233        break;        break;
2234    
2235        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2236          case OP_QUERYI:
2237          case OP_MINQUERYI:
2238          case OP_POSQUERYI:
2239          case OP_NOTQUERYI:
2240          case OP_NOTMINQUERYI:
2241          case OP_NOTPOSQUERYI:
2242          caseless = TRUE;
2243          codevalue -= OP_STARI - OP_STAR;
2244          /* Fall through */
2245        case OP_QUERY:        case OP_QUERY:
2246        case OP_MINQUERY:        case OP_MINQUERY:
2247        case OP_POSQUERY:        case OP_POSQUERY:
# Line 2189  for (;;) Line 2252  for (;;)
2252        if (clen > 0)        if (clen > 0)
2253          {          {
2254          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2255          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2256            {            {
2257  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2258            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2215  for (;;) Line 2278  for (;;)
2278        break;        break;
2279    
2280        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2281          case OP_STARI:
2282          case OP_MINSTARI:
2283          case OP_POSSTARI:
2284          case OP_NOTSTARI:
2285          case OP_NOTMINSTARI:
2286          case OP_NOTPOSSTARI:
2287          caseless = TRUE;
2288          codevalue -= OP_STARI - OP_STAR;
2289          /* Fall through */
2290        case OP_STAR:        case OP_STAR:
2291        case OP_MINSTAR:        case OP_MINSTAR:
2292        case OP_POSSTAR:        case OP_POSSTAR:
# Line 2225  for (;;) Line 2297  for (;;)
2297        if (clen > 0)        if (clen > 0)
2298          {          {
2299          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2300          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2301            {            {
2302  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2303            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2251  for (;;) Line 2323  for (;;)
2323        break;        break;
2324    
2325        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2326          case OP_EXACTI:
2327          case OP_NOTEXACTI:
2328          caseless = TRUE;
2329          codevalue -= OP_STARI - OP_STAR;
2330          /* Fall through */
2331        case OP_EXACT:        case OP_EXACT:
2332        case OP_NOTEXACT:        case OP_NOTEXACT:
2333        count = current_state->count;  /* Number already matched */        count = current_state->count;  /* Number already matched */
2334        if (clen > 0)        if (clen > 0)
2335          {          {
2336          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2337          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2338            {            {
2339  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2340            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2281  for (;;) Line 2358  for (;;)
2358        break;        break;
2359    
2360        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2361          case OP_UPTOI:
2362          case OP_MINUPTOI:
2363          case OP_POSUPTOI:
2364          case OP_NOTUPTOI:
2365          case OP_NOTMINUPTOI:
2366          case OP_NOTPOSUPTOI:
2367          caseless = TRUE;
2368          codevalue -= OP_STARI - OP_STAR;
2369          /* Fall through */
2370        case OP_UPTO:        case OP_UPTO:
2371        case OP_MINUPTO:        case OP_MINUPTO:
2372        case OP_POSUPTO:        case OP_POSUPTO:
# Line 2292  for (;;) Line 2378  for (;;)
2378        if (clen > 0)        if (clen > 0)
2379          {          {
2380          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2381          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2382            {            {
2383  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2384            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2359  for (;;) Line 2445  for (;;)
2445          points to the byte after the end of the class. If there is a          points to the byte after the end of the class. If there is a
2446          quantifier, this is where it will be. */          quantifier, this is where it will be. */
2447    
2448          next_state_offset = ecode - start_code;          next_state_offset = (int)(ecode - start_code);
2449    
2450          switch (*ecode)          switch (*ecode)
2451            {            {
# Line 2430  for (;;) Line 2516  for (;;)
2516            md,                                   /* static match data */            md,                                   /* static match data */
2517            code,                                 /* this subexpression's code */            code,                                 /* this subexpression's code */
2518            ptr,                                  /* where we currently are */            ptr,                                  /* where we currently are */
2519            ptr - start_subject,                  /* start offset */            (int)(ptr - start_subject),           /* start offset */
2520            local_offsets,                        /* offset vector */            local_offsets,                        /* offset vector */
2521            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2522            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2523            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
           ims,                                  /* the current ims flags */  
2524            rlevel,                               /* function recursion level */            rlevel,                               /* function recursion level */
2525            recursing);                           /* pass on regex recursion */            recursing);                           /* pass on regex recursion */
2526    
2527          if (rc == PCRE_ERROR_DFA_UITEM) return rc;          if (rc == PCRE_ERROR_DFA_UITEM) return rc;
2528          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))
2529              { ADD_ACTIVE(endasscode + LINK_SIZE + 1 - start_code, 0); }              { ADD_ACTIVE((int)(endasscode + LINK_SIZE + 1 - start_code), 0); }
2530          }          }
2531        break;        break;
2532    
# Line 2468  for (;;) Line 2553  for (;;)
2553              cb.callout_number   = code[LINK_SIZE+2];              cb.callout_number   = code[LINK_SIZE+2];
2554              cb.offset_vector    = offsets;              cb.offset_vector    = offsets;
2555              cb.subject          = (PCRE_SPTR)start_subject;              cb.subject          = (PCRE_SPTR)start_subject;
2556              cb.subject_length   = end_subject - start_subject;              cb.subject_length   = (int)(end_subject - start_subject);
2557              cb.start_match      = current_subject - start_subject;              cb.start_match      = (int)(current_subject - start_subject);
2558              cb.current_position = ptr - start_subject;              cb.current_position = (int)(ptr - start_subject);
2559              cb.pattern_position = GET(code, LINK_SIZE + 3);              cb.pattern_position = GET(code, LINK_SIZE + 3);
2560              cb.next_item_length = GET(code, 3 + 2*LINK_SIZE);              cb.next_item_length = GET(code, 3 + 2*LINK_SIZE);
2561              cb.capture_top      = 1;              cb.capture_top      = 1;
# Line 2521  for (;;) Line 2606  for (;;)
2606              md,                                   /* fixed match data */              md,                                   /* fixed match data */
2607              asscode,                              /* this subexpression's code */              asscode,                              /* this subexpression's code */
2608              ptr,                                  /* where we currently are */              ptr,                                  /* where we currently are */
2609              ptr - start_subject,                  /* start offset */              (int)(ptr - start_subject),           /* start offset */
2610              local_offsets,                        /* offset vector */              local_offsets,                        /* offset vector */
2611              sizeof(local_offsets)/sizeof(int),    /* size of same */              sizeof(local_offsets)/sizeof(int),    /* size of same */
2612              local_workspace,                      /* workspace vector */              local_workspace,                      /* workspace vector */
2613              sizeof(local_workspace)/sizeof(int),  /* size of same */              sizeof(local_workspace)/sizeof(int),  /* size of same */
             ims,                                  /* the current ims flags */  
2614              rlevel,                               /* function recursion level */              rlevel,                               /* function recursion level */
2615              recursing);                           /* pass on regex recursion */              recursing);                           /* pass on regex recursion */
2616    
2617            if (rc == PCRE_ERROR_DFA_UITEM) return rc;            if (rc == PCRE_ERROR_DFA_UITEM) return rc;
2618            if ((rc >= 0) ==            if ((rc >= 0) ==
2619                  (condcode == OP_ASSERT || condcode == OP_ASSERTBACK))                  (condcode == OP_ASSERT || condcode == OP_ASSERTBACK))
2620              { ADD_ACTIVE(endasscode + LINK_SIZE + 1 - start_code, 0); }              { ADD_ACTIVE((int)(endasscode + LINK_SIZE + 1 - start_code), 0); }
2621            else            else
2622              { ADD_ACTIVE(state_offset + codelink + LINK_SIZE + 1, 0); }              { ADD_ACTIVE(state_offset + codelink + LINK_SIZE + 1, 0); }
2623            }            }
# Line 2554  for (;;) Line 2638  for (;;)
2638            md,                                   /* fixed match data */            md,                                   /* fixed match data */
2639            start_code + GET(code, 1),            /* this subexpression's code */            start_code + GET(code, 1),            /* this subexpression's code */
2640            ptr,                                  /* where we currently are */            ptr,                                  /* where we currently are */
2641            ptr - start_subject,                  /* start offset */            (int)(ptr - start_subject),           /* start offset */
2642            local_offsets,                        /* offset vector */            local_offsets,                        /* offset vector */
2643            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2644            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2645            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
           ims,                                  /* the current ims flags */  
2646            rlevel,                               /* function recursion level */            rlevel,                               /* function recursion level */
2647            recursing + 1);                       /* regex recurse level */            recursing + 1);                       /* regex recurse level */
2648    
# Line 2597  for (;;) Line 2680  for (;;)
2680        break;        break;
2681    
2682        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2683          case OP_BRAPOS:
2684          case OP_SBRAPOS:
2685          case OP_CBRAPOS:
2686          case OP_SCBRAPOS:
2687          case OP_BRAPOSZERO:
2688            {
2689            int charcount, matched_count;
2690            const uschar *local_ptr = ptr;
2691            BOOL allow_zero;
2692    
2693            if (codevalue == OP_BRAPOSZERO)
2694              {
2695              allow_zero = TRUE;
2696              codevalue = *(++code);  /* Codevalue will be one of above BRAs */
2697              }
2698            else allow_zero = FALSE;
2699    
2700            /* Loop to match the subpattern as many times as possible as if it were
2701            a complete pattern. */
2702    
2703            for (matched_count = 0;; matched_count++)
2704              {
2705              int local_offsets[2];
2706              int local_workspace[1000];
2707    
2708              int rc = internal_dfa_exec(
2709                md,                                   /* fixed match data */
2710                code,                                 /* this subexpression's code */
2711                local_ptr,                            /* where we currently are */
2712                (int)(ptr - start_subject),           /* start offset */
2713                local_offsets,                        /* offset vector */
2714                sizeof(local_offsets)/sizeof(int),    /* size of same */
2715                local_workspace,                      /* workspace vector */
2716                sizeof(local_workspace)/sizeof(int),  /* size of same */
2717                rlevel,                               /* function recursion level */
2718                recursing);                           /* pass on regex recursion */
2719    
2720              /* Failed to match */
2721    
2722              if (rc < 0)
2723                {
2724                if (rc != PCRE_ERROR_NOMATCH) return rc;
2725                break;
2726                }
2727    
2728              /* Matched: break the loop if zero characters matched. */
2729    
2730              charcount = local_offsets[1] - local_offsets[0];
2731              if (charcount == 0) break;
2732              local_ptr += charcount;    /* Advance temporary position ptr */
2733              }
2734    
2735            /* At this point we have matched the subpattern matched_count
2736            times, and local_ptr is pointing to the character after the end of the
2737            last match. */
2738    
2739            if (matched_count > 0 || allow_zero)
2740              {
2741              const uschar *end_subpattern = code;
2742              int next_state_offset;
2743    
2744              do { end_subpattern += GET(end_subpattern, 1); }
2745                while (*end_subpattern == OP_ALT);
2746              next_state_offset =
2747                (int)(end_subpattern - start_code + LINK_SIZE + 1);
2748    
2749              /* Optimization: if there are no more active states, and there
2750              are no new states yet set up, then skip over the subject string
2751              right here, to save looping. Otherwise, set up the new state to swing
2752              into action when the end of the matched substring is reached. */
2753    
2754              if (i + 1 >= active_count && new_count == 0)
2755                {
2756                ptr = local_ptr;
2757                clen = 0;
2758                ADD_NEW(next_state_offset, 0);
2759                }
2760              else
2761                {
2762                const uschar *p = ptr;
2763                const uschar *pp = local_ptr;
2764                charcount = pp - p;
2765                while (p < pp) if ((*p++ & 0xc0) == 0x80) charcount--;
2766                ADD_NEW_DATA(-next_state_offset, 0, (charcount - 1));
2767                }
2768              }
2769            }
2770          break;
2771    
2772          /*-----------------------------------------------------------------*/
2773        case OP_ONCE:        case OP_ONCE:
2774          {          {
2775          int local_offsets[2];          int local_offsets[2];
# Line 2606  for (;;) Line 2779  for (;;)
2779            md,                                   /* fixed match data */            md,                                   /* fixed match data */
2780            code,                                 /* this subexpression's code */            code,                                 /* this subexpression's code */
2781            ptr,                                  /* where we currently are */            ptr,                                  /* where we currently are */
2782            ptr - start_subject,                  /* start offset */            (int)(ptr - start_subject),           /* start offset */
2783            local_offsets,                        /* offset vector */            local_offsets,                        /* offset vector */
2784            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2785            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2786            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
           ims,                                  /* the current ims flags */  
2787            rlevel,                               /* function recursion level */            rlevel,                               /* function recursion level */
2788            recursing);                           /* pass on regex recursion */            recursing);                           /* pass on regex recursion */
2789    
# Line 2623  for (;;) Line 2795  for (;;)
2795    
2796            do { end_subpattern += GET(end_subpattern, 1); }            do { end_subpattern += GET(end_subpattern, 1); }
2797              while (*end_subpattern == OP_ALT);              while (*end_subpattern == OP_ALT);
2798            next_state_offset = end_subpattern - start_code + LINK_SIZE + 1;            next_state_offset =
2799                (int)(end_subpattern - start_code + LINK_SIZE + 1);
2800    
2801            /* If the end of this subpattern is KETRMAX or KETRMIN, we must            /* If the end of this subpattern is KETRMAX or KETRMIN, we must
2802            arrange for the repeat state also to be added to the relevant list.            arrange for the repeat state also to be added to the relevant list.
# Line 2631  for (;;) Line 2804  for (;;)
2804    
2805            repeat_state_offset = (*end_subpattern == OP_KETRMAX ||            repeat_state_offset = (*end_subpattern == OP_KETRMAX ||
2806                                   *end_subpattern == OP_KETRMIN)?                                   *end_subpattern == OP_KETRMIN)?
2807              end_subpattern - start_code - GET(end_subpattern, 1) : -1;              (int)(end_subpattern - start_code - GET(end_subpattern, 1)) : -1;
2808    
2809            /* If we have matched an empty string, add the next state at the            /* If we have matched an empty string, add the next state at the
2810            current character pointer. This is important so that the duplicate            current character pointer. This is important so that the duplicate
# Line 2646  for (;;) Line 2819  for (;;)
2819            /* Optimization: if there are no more active states, and there            /* Optimization: if there are no more active states, and there
2820            are no new states yet set up, then skip over the subject string            are no new states yet set up, then skip over the subject string
2821            right here, to save looping. Otherwise, set up the new state to swing            right here, to save looping. Otherwise, set up the new state to swing
2822            into action when the end of the substring is reached. */            into action when the end of the matched substring is reached. */
2823    
2824            else if (i + 1 >= active_count && new_count == 0)            else if (i + 1 >= active_count && new_count == 0)
2825              {              {
# Line 2676  for (;;) Line 2849  for (;;)
2849              if (repeat_state_offset >= 0)              if (repeat_state_offset >= 0)
2850                { ADD_NEW_DATA(-repeat_state_offset, 0, (charcount - 1)); }                { ADD_NEW_DATA(-repeat_state_offset, 0, (charcount - 1)); }
2851              }              }
   
2852            }            }
2853          else if (rc != PCRE_ERROR_NOMATCH) return rc;          else if (rc != PCRE_ERROR_NOMATCH) return rc;
2854          }          }
# Line 2695  for (;;) Line 2867  for (;;)
2867          cb.callout_number   = code[1];          cb.callout_number   = code[1];
2868          cb.offset_vector    = offsets;          cb.offset_vector    = offsets;
2869          cb.subject          = (PCRE_SPTR)start_subject;          cb.subject          = (PCRE_SPTR)start_subject;
2870          cb.subject_length   = end_subject - start_subject;          cb.subject_length   = (int)(end_subject - start_subject);
2871          cb.start_match      = current_subject - start_subject;          cb.start_match      = (int)(current_subject - start_subject);
2872          cb.current_position = ptr - start_subject;          cb.current_position = (int)(ptr - start_subject);
2873          cb.pattern_position = GET(code, 2);          cb.pattern_position = GET(code, 2);
2874          cb.next_item_length = GET(code, 2 + LINK_SIZE);          cb.next_item_length = GET(code, 2 + LINK_SIZE);
2875          cb.capture_top      = 1;          cb.capture_top      = 1;
# Line 2743  for (;;) Line 2915  for (;;)
2915          ((md->moptions & PCRE_PARTIAL_SOFT) != 0 &&  /* Soft partial and */          ((md->moptions & PCRE_PARTIAL_SOFT) != 0 &&  /* Soft partial and */
2916           match_count < 0)                            /* no matches */           match_count < 0)                            /* no matches */
2917          ) &&                                         /* And... */          ) &&                                         /* And... */
2918          ptr >= end_subject &&                     /* Reached end of subject */          ptr >= end_subject &&                  /* Reached end of subject */
2919          ptr > current_subject)                    /* Matched non-empty string */          ptr > md->start_used_ptr)              /* Inspected non-empty string */
2920        {        {
2921        if (offsetcount >= 2)        if (offsetcount >= 2)
2922          {          {
2923          offsets[0] = md->start_used_ptr - start_subject;          offsets[0] = (int)(md->start_used_ptr - start_subject);
2924          offsets[1] = end_subject - start_subject;          offsets[1] = (int)(end_subject - start_subject);
2925          }          }
2926        match_count = PCRE_ERROR_PARTIAL;        match_count = PCRE_ERROR_PARTIAL;
2927        }        }
# Line 2834  if (re == NULL || subject == NULL || wor Line 3006  if (re == NULL || subject == NULL || wor
3006     (offsets == NULL && offsetcount > 0)) return PCRE_ERROR_NULL;     (offsets == NULL && offsetcount > 0)) return PCRE_ERROR_NULL;
3007  if (offsetcount < 0) return PCRE_ERROR_BADCOUNT;  if (offsetcount < 0) return PCRE_ERROR_BADCOUNT;
3008  if (wscount < 20) return PCRE_ERROR_DFA_WSSIZE;  if (wscount < 20) return PCRE_ERROR_DFA_WSSIZE;
3009    if (start_offset < 0 || start_offset > length) return PCRE_ERROR_BADOFFSET;
3010    
3011  /* We need to find the pointer to any study data before we test for byte  /* We need to find the pointer to any study data before we test for byte
3012  flipping, so we scan the extra_data block first. This may set two fields in the  flipping, so we scan the extra_data block first. This may set two fields in the
# Line 2952  back the character offset. */ Line 3125  back the character offset. */
3125  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
3126  if (utf8 && (options & PCRE_NO_UTF8_CHECK) == 0)  if (utf8 && (options & PCRE_NO_UTF8_CHECK) == 0)
3127    {    {
3128    if (_pcre_valid_utf8((uschar *)subject, length) >= 0)    int erroroffset;
3129      return PCRE_ERROR_BADUTF8;    int errorcode = _pcre_valid_utf8((uschar *)subject, length, &erroroffset);
3130    if (start_offset > 0 && start_offset < length)    if (errorcode != 0)
3131      {      {
3132      int tb = ((uschar *)subject)[start_offset];      if (offsetcount >= 2)
     if (tb > 127)  
3133        {        {
3134        tb &= 0xc0;        offsets[0] = erroroffset;
3135        if (tb != 0 && tb != 0xc0) return PCRE_ERROR_BADUTF8_OFFSET;        offsets[1] = errorcode;
3136        }        }
3137      }      return (errorcode <= PCRE_UTF8_ERR5 && (options & PCRE_PARTIAL_HARD) != 0)?
3138          PCRE_ERROR_SHORTUTF8 : PCRE_ERROR_BADUTF8;
3139        }
3140      if (start_offset > 0 && start_offset < length &&
3141            (((USPTR)subject)[start_offset] & 0xc0) == 0x80)
3142        return PCRE_ERROR_BADUTF8_OFFSET;
3143    }    }
3144  #endif  #endif
3145    
# Line 3048  for (;;) Line 3225  for (;;)
3225    
3226      /* There are some optimizations that avoid running the match if a known      /* There are some optimizations that avoid running the match if a known
3227      starting point is not found. However, there is an option that disables      starting point is not found. However, there is an option that disables
3228      these, for testing and for ensuring that all callouts do actually occur. */      these, for testing and for ensuring that all callouts do actually occur.
3229        The option can be set in the regex by (*NO_START_OPT) or passed in
3230        match-time options. */
3231    
3232      if ((options & PCRE_NO_START_OPTIMIZE) == 0)      if (((options | re->options) & PCRE_NO_START_OPTIMIZE) == 0)
3233        {        {
3234        /* Advance to a known first byte. */        /* Advance to a known first byte. */
3235    
# Line 3108  for (;;) Line 3287  for (;;)
3287          while (current_subject < end_subject)          while (current_subject < end_subject)
3288            {            {
3289            register unsigned int c = *current_subject;            register unsigned int c = *current_subject;
3290            if ((start_bits[c/8] & (1 << (c&7))) == 0) current_subject++;            if ((start_bits[c/8] & (1 << (c&7))) == 0)
3291              else break;              {
3292                current_subject++;
3293    #ifdef SUPPORT_UTF8
3294                if (utf8)
3295                  while(current_subject < end_subject &&
3296                        (*current_subject & 0xc0) == 0x80) current_subject++;
3297    #endif
3298                }
3299              else break;
3300            }            }
3301          }          }
3302        }        }
# Line 3200  for (;;) Line 3387  for (;;)
3387      offsetcount,                       /* size of same */      offsetcount,                       /* size of same */
3388      workspace,                         /* workspace vector */      workspace,                         /* workspace vector */
3389      wscount,                           /* size of same */      wscount,                           /* size of same */
     re->options & (PCRE_CASELESS|PCRE_MULTILINE|PCRE_DOTALL), /* ims flags */  
3390      0,                                 /* function recurse level */      0,                                 /* function recurse level */
3391      0);                                /* regex recurse level */      0);                                /* regex recurse level */
3392    

Legend:
Removed from v.518  
changed lines
  Added in v.637

  ViewVC Help
Powered by ViewVC 1.1.5