/[pcre]/code/trunk/pcre_dfa_exec.c
ViewVC logotype

Diff of /code/trunk/pcre_dfa_exec.c

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 530 by ph10, Tue Jun 1 13:42:06 2010 UTC revision 680 by ph10, Tue Sep 6 09:15:54 2011 UTC
# Line 7  and semantics are as close as possible t Line 7  and semantics are as close as possible t
7  below for why this module is different).  below for why this module is different).
8    
9                         Written by Philip Hazel                         Written by Philip Hazel
10             Copyright (c) 1997-2010 University of Cambridge             Copyright (c) 1997-2011 University of Cambridge
11    
12  -----------------------------------------------------------------------------  -----------------------------------------------------------------------------
13  Redistribution and use in source and binary forms, with or without  Redistribution and use in source and binary forms, with or without
# Line 121  static const uschar coptable[] = { Line 121  static const uschar coptable[] = {
121    0, 0,                          /* \P, \p                                 */    0, 0,                          /* \P, \p                                 */
122    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */
123    0,                             /* \X                                     */    0,                             /* \X                                     */
124    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0, 0,              /* \Z, \z, ^, ^M, $, $M                   */
125    1,                             /* Char                                   */    1,                             /* Char                                   */
126    1,                             /* Charnc                                 */    1,                             /* Chari                                  */
127    1,                             /* not                                    */    1,                             /* not                                    */
128      1,                             /* noti                                   */
129    /* Positive single-char repeats                                          */    /* Positive single-char repeats                                          */
130    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */
131    3, 3, 3,                       /* upto, minupto, exact                   */    3, 3, 3,                       /* upto, minupto, exact                   */
132    1, 1, 1, 3,                    /* *+, ++, ?+, upto+                      */    1, 1, 1, 3,                    /* *+, ++, ?+, upto+                      */
133      1, 1, 1, 1, 1, 1,              /* *I, *?I, +I, +?I, ?I, ??I              */
134      3, 3, 3,                       /* upto I, minupto I, exact I             */
135      1, 1, 1, 3,                    /* *+I, ++I, ?+I, upto+I                  */
136    /* Negative single-char repeats - only for chars < 256                   */    /* Negative single-char repeats - only for chars < 256                   */
137    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */
138    3, 3, 3,                       /* NOT upto, minupto, exact               */    3, 3, 3,                       /* NOT upto, minupto, exact               */
139    1, 1, 1, 3,                    /* NOT *+, ++, ?+, updo+                  */    1, 1, 1, 3,                    /* NOT *+, ++, ?+, upto+                  */
140      1, 1, 1, 1, 1, 1,              /* NOT *I, *?I, +I, +?I, ?I, ??I          */
141      3, 3, 3,                       /* NOT upto I, minupto I, exact I         */
142      1, 1, 1, 3,                    /* NOT *+I, ++I, ?+I, upto+I              */
143    /* Positive type repeats                                                 */    /* Positive type repeats                                                 */
144    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */
145    3, 3, 3,                       /* Type upto, minupto, exact              */    3, 3, 3,                       /* Type upto, minupto, exact              */
# Line 144  static const uschar coptable[] = { Line 151  static const uschar coptable[] = {
151    0,                             /* NCLASS                                 */    0,                             /* NCLASS                                 */
152    0,                             /* XCLASS - variable length               */    0,                             /* XCLASS - variable length               */
153    0,                             /* REF                                    */    0,                             /* REF                                    */
154      0,                             /* REFI                                   */
155    0,                             /* RECURSE                                */    0,                             /* RECURSE                                */
156    0,                             /* CALLOUT                                */    0,                             /* CALLOUT                                */
157    0,                             /* Alt                                    */    0,                             /* Alt                                    */
158    0,                             /* Ket                                    */    0,                             /* Ket                                    */
159    0,                             /* KetRmax                                */    0,                             /* KetRmax                                */
160    0,                             /* KetRmin                                */    0,                             /* KetRmin                                */
161      0,                             /* KetRpos                                */
162      0,                             /* Reverse                                */
163    0,                             /* Assert                                 */    0,                             /* Assert                                 */
164    0,                             /* Assert not                             */    0,                             /* Assert not                             */
165    0,                             /* Assert behind                          */    0,                             /* Assert behind                          */
166    0,                             /* Assert behind not                      */    0,                             /* Assert behind not                      */
167    0,                             /* Reverse                                */    0, 0, 0, 0, 0, 0,              /* ONCE, BRA, BRAPOS, CBRA, CBRAPOS, COND */
168    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0, 0,                 /* SBRA, SBRAPOS, SCBRA, SCBRAPOS, SCOND  */
   0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */  
169    0, 0,                          /* CREF, NCREF                            */    0, 0,                          /* CREF, NCREF                            */
170    0, 0,                          /* RREF, NRREF                            */    0, 0,                          /* RREF, NRREF                            */
171    0,                             /* DEF                                    */    0,                             /* DEF                                    */
172    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0, 0,                       /* BRAZERO, BRAMINZERO, BRAPOSZERO        */
173    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG                 */
174    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG         */
175    0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */    0, 0, 0, 0,                    /* COMMIT, FAIL, ACCEPT, ASSERT_ACCEPT    */
176      0, 0                           /* CLOSE, SKIPZERO  */
177  };  };
178    
179  /* This table identifies those opcodes that inspect a character. It is used to  /* This table identifies those opcodes that inspect a character. It is used to
# Line 179  static const uschar poptable[] = { Line 189  static const uschar poptable[] = {
189    1, 1,                          /* \P, \p                                 */    1, 1,                          /* \P, \p                                 */
190    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */
191    1,                             /* \X                                     */    1,                             /* \X                                     */
192    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0, 0,              /* \Z, \z, ^, ^M, $, $M                   */
193    1,                             /* Char                                   */    1,                             /* Char                                   */
194    1,                             /* Charnc                                 */    1,                             /* Chari                                  */
195    1,                             /* not                                    */    1,                             /* not                                    */
196      1,                             /* noti                                   */
197    /* Positive single-char repeats                                          */    /* Positive single-char repeats                                          */
198    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */
199    1, 1, 1,                       /* upto, minupto, exact                   */    1, 1, 1,                       /* upto, minupto, exact                   */
200    1, 1, 1, 1,                    /* *+, ++, ?+, upto+                      */    1, 1, 1, 1,                    /* *+, ++, ?+, upto+                      */
201      1, 1, 1, 1, 1, 1,              /* *I, *?I, +I, +?I, ?I, ??I              */
202      1, 1, 1,                       /* upto I, minupto I, exact I             */
203      1, 1, 1, 1,                    /* *+I, ++I, ?+I, upto+I                  */
204    /* Negative single-char repeats - only for chars < 256                   */    /* Negative single-char repeats - only for chars < 256                   */
205    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */
206    1, 1, 1,                       /* NOT upto, minupto, exact               */    1, 1, 1,                       /* NOT upto, minupto, exact               */
207    1, 1, 1, 1,                    /* NOT *+, ++, ?+, upto+                  */    1, 1, 1, 1,                    /* NOT *+, ++, ?+, upto+                  */
208      1, 1, 1, 1, 1, 1,              /* NOT *I, *?I, +I, +?I, ?I, ??I          */
209      1, 1, 1,                       /* NOT upto I, minupto I, exact I         */
210      1, 1, 1, 1,                    /* NOT *+I, ++I, ?+I, upto+I              */
211    /* Positive type repeats                                                 */    /* Positive type repeats                                                 */
212    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */
213    1, 1, 1,                       /* Type upto, minupto, exact              */    1, 1, 1,                       /* Type upto, minupto, exact              */
# Line 202  static const uschar poptable[] = { Line 219  static const uschar poptable[] = {
219    1,                             /* NCLASS                                 */    1,                             /* NCLASS                                 */
220    1,                             /* XCLASS - variable length               */    1,                             /* XCLASS - variable length               */
221    0,                             /* REF                                    */    0,                             /* REF                                    */
222      0,                             /* REFI                                   */
223    0,                             /* RECURSE                                */    0,                             /* RECURSE                                */
224    0,                             /* CALLOUT                                */    0,                             /* CALLOUT                                */
225    0,                             /* Alt                                    */    0,                             /* Alt                                    */
226    0,                             /* Ket                                    */    0,                             /* Ket                                    */
227    0,                             /* KetRmax                                */    0,                             /* KetRmax                                */
228    0,                             /* KetRmin                                */    0,                             /* KetRmin                                */
229      0,                             /* KetRpos                                */
230      0,                             /* Reverse                                */
231    0,                             /* Assert                                 */    0,                             /* Assert                                 */
232    0,                             /* Assert not                             */    0,                             /* Assert not                             */
233    0,                             /* Assert behind                          */    0,                             /* Assert behind                          */
234    0,                             /* Assert behind not                      */    0,                             /* Assert behind not                      */
235    0,                             /* Reverse                                */    0, 0, 0, 0, 0, 0,              /* ONCE, BRA, BRAPOS, CBRA, CBRAPOS, COND */
236    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0, 0,                 /* SBRA, SBRAPOS, SCBRA, SCBRAPOS, SCOND  */
   0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */  
237    0, 0,                          /* CREF, NCREF                            */    0, 0,                          /* CREF, NCREF                            */
238    0, 0,                          /* RREF, NRREF                            */    0, 0,                          /* RREF, NRREF                            */
239    0,                             /* DEF                                    */    0,                             /* DEF                                    */
240    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0, 0,                       /* BRAZERO, BRAMINZERO, BRAPOSZERO        */
241    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG                 */
242    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG         */
243    0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */    0, 0, 0, 0,                    /* COMMIT, FAIL, ACCEPT, ASSERT_ACCEPT    */
244      0, 0                           /* CLOSE, SKIPZERO                        */
245  };  };
246    
247  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,
# Line 252  these structures in, is a vector of ints Line 272  these structures in, is a vector of ints
272  typedef struct stateblock {  typedef struct stateblock {
273    int offset;                     /* Offset to opcode */    int offset;                     /* Offset to opcode */
274    int count;                      /* Count for repeats */    int count;                      /* Count for repeats */
   int ims;                        /* ims flag bits */  
275    int data;                       /* Some use extra data */    int data;                       /* Some use extra data */
276  } stateblock;  } stateblock;
277    
# Line 308  Arguments: Line 327  Arguments:
327    offsetcount       size of same    offsetcount       size of same
328    workspace         vector of workspace    workspace         vector of workspace
329    wscount           size of same    wscount           size of same
   ims               the current ims flags  
330    rlevel            function call recursion level    rlevel            function call recursion level
   recursing         regex recursive call level  
331    
332  Returns:            > 0 => number of match offset pairs placed in offsets  Returns:            > 0 => number of match offset pairs placed in offsets
333                      = 0 => offsets overflowed; longest matches are present                      = 0 => offsets overflowed; longest matches are present
# Line 325  for the current character, one for the f Line 342  for the current character, one for the f
342      { \      { \
343      next_active_state->offset = (x); \      next_active_state->offset = (x); \
344      next_active_state->count  = (y); \      next_active_state->count  = (y); \
     next_active_state->ims    = ims; \  
345      next_active_state++; \      next_active_state++; \
346      DPRINTF(("%.*sADD_ACTIVE(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \      DPRINTF(("%.*sADD_ACTIVE(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \
347      } \      } \
# Line 336  for the current character, one for the f Line 352  for the current character, one for the f
352      { \      { \
353      next_active_state->offset = (x); \      next_active_state->offset = (x); \
354      next_active_state->count  = (y); \      next_active_state->count  = (y); \
     next_active_state->ims    = ims; \  
355      next_active_state->data   = (z); \      next_active_state->data   = (z); \
356      next_active_state++; \      next_active_state++; \
357      DPRINTF(("%.*sADD_ACTIVE_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \      DPRINTF(("%.*sADD_ACTIVE_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \
# Line 348  for the current character, one for the f Line 363  for the current character, one for the f
363      { \      { \
364      next_new_state->offset = (x); \      next_new_state->offset = (x); \
365      next_new_state->count  = (y); \      next_new_state->count  = (y); \
     next_new_state->ims    = ims; \  
366      next_new_state++; \      next_new_state++; \
367      DPRINTF(("%.*sADD_NEW(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \      DPRINTF(("%.*sADD_NEW(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \
368      } \      } \
# Line 359  for the current character, one for the f Line 373  for the current character, one for the f
373      { \      { \
374      next_new_state->offset = (x); \      next_new_state->offset = (x); \
375      next_new_state->count  = (y); \      next_new_state->count  = (y); \
     next_new_state->ims    = ims; \  
376      next_new_state->data   = (z); \      next_new_state->data   = (z); \
377      next_new_state++; \      next_new_state++; \
378      DPRINTF(("%.*sADD_NEW_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \      DPRINTF(("%.*sADD_NEW_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \
# Line 378  internal_dfa_exec( Line 391  internal_dfa_exec(
391    int offsetcount,    int offsetcount,
392    int *workspace,    int *workspace,
393    int wscount,    int wscount,
394    int ims,    int  rlevel)
   int  rlevel,  
   int  recursing)  
395  {  {
396  stateblock *active_states, *new_states, *temp_states;  stateblock *active_states, *new_states, *temp_states;
397  stateblock *next_active_state, *next_new_state;  stateblock *next_active_state, *next_new_state;
# Line 389  const uschar *ctypes, *lcc, *fcc; Line 400  const uschar *ctypes, *lcc, *fcc;
400  const uschar *ptr;  const uschar *ptr;
401  const uschar *end_code, *first_op;  const uschar *end_code, *first_op;
402    
403    dfa_recursion_info new_recursive;
404    
405  int active_count, new_count, match_count;  int active_count, new_count, match_count;
406    
407  /* Some fields in the md block are frequently referenced, so we load them into  /* Some fields in the md block are frequently referenced, so we load them into
# Line 412  wscount = (wscount - (wscount % (INTS_PE Line 425  wscount = (wscount - (wscount % (INTS_PE
425            (2 * INTS_PER_STATEBLOCK);            (2 * INTS_PER_STATEBLOCK);
426    
427  DPRINTF(("\n%.*s---------------------\n"  DPRINTF(("\n%.*s---------------------\n"
428    "%.*sCall to internal_dfa_exec f=%d r=%d\n",    "%.*sCall to internal_dfa_exec f=%d\n",
429    rlevel*2-2, SP, rlevel*2-2, SP, rlevel, recursing));    rlevel*2-2, SP, rlevel*2-2, SP, rlevel));
430    
431  ctypes = md->tables + ctypes_offset;  ctypes = md->tables + ctypes_offset;
432  lcc = md->tables + lcc_offset;  lcc = md->tables + lcc_offset;
# Line 426  next_new_state = new_states = active_sta Line 439  next_new_state = new_states = active_sta
439  new_count = 0;  new_count = 0;
440    
441  first_op = this_start_code + 1 + LINK_SIZE +  first_op = this_start_code + 1 + LINK_SIZE +
442    ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA)? 2:0);    ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA ||
443        *this_start_code == OP_CBRAPOS || *this_start_code == OP_SCBRAPOS)? 2:0);
444    
445  /* The first thing in any (sub) pattern is a bracket of some sort. Push all  /* The first thing in any (sub) pattern is a bracket of some sort. Push all
446  the alternative states onto the list, and find out where the end is. This  the alternative states onto the list, and find out where the end is. This
# Line 525  else Line 539  else
539    else    else
540      {      {
541      int length = 1 + LINK_SIZE +      int length = 1 + LINK_SIZE +
542        ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA)? 2:0);        ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA ||
543            *this_start_code == OP_CBRAPOS || *this_start_code == OP_SCBRAPOS)?
544            2:0);
545      do      do
546        {        {
547        ADD_NEW((int)(end_code - start_code + length), 0);        ADD_NEW((int)(end_code - start_code + length), 0);
# Line 605  for (;;) Line 621  for (;;)
621    for (i = 0; i < active_count; i++)    for (i = 0; i < active_count; i++)
622      {      {
623      stateblock *current_state = active_states + i;      stateblock *current_state = active_states + i;
624        BOOL caseless = FALSE;
625      const uschar *code;      const uschar *code;
626      int state_offset = current_state->offset;      int state_offset = current_state->offset;
627      int count, codevalue, rrc;      int count, codevalue, rrc;
# Line 616  for (;;) Line 633  for (;;)
633          else printf("0x%02x\n", c);          else printf("0x%02x\n", c);
634  #endif  #endif
635    
     /* This variable is referred to implicity in the ADD_xxx macros. */  
   
     ims = current_state->ims;  
   
636      /* A negative offset is a special case meaning "hold off going to this      /* A negative offset is a special case meaning "hold off going to this
637      (negated) state until the number of characters in the data field have      (negated) state until the number of characters in the data field have
638      been skipped". */      been skipped". */
# Line 725  for (;;) Line 738  for (;;)
738    
739  /* ========================================================================== */  /* ========================================================================== */
740        /* Reached a closing bracket. If not at the end of the pattern, carry        /* Reached a closing bracket. If not at the end of the pattern, carry
741        on with the next opcode. Otherwise, unless we have an empty string and        on with the next opcode. For repeating opcodes, also add the repeat
742          state. Note that KETRPOS will always be encountered at the end of the
743          subpattern, because the possessive subpattern repeats are always handled
744          using recursive calls. Thus, it never adds any new states.
745    
746          At the end of the (sub)pattern, unless we have an empty string and
747        PCRE_NOTEMPTY is set, or PCRE_NOTEMPTY_ATSTART is set and we are at the        PCRE_NOTEMPTY is set, or PCRE_NOTEMPTY_ATSTART is set and we are at the
748        start of the subject, save the match data, shifting up all previous        start of the subject, save the match data, shifting up all previous
749        matches so we always have the longest first. */        matches so we always have the longest first. */
# Line 733  for (;;) Line 751  for (;;)
751        case OP_KET:        case OP_KET:
752        case OP_KETRMIN:        case OP_KETRMIN:
753        case OP_KETRMAX:        case OP_KETRMAX:
754          case OP_KETRPOS:
755        if (code != end_code)        if (code != end_code)
756          {          {
757          ADD_ACTIVE(state_offset + 1 + LINK_SIZE, 0);          ADD_ACTIVE(state_offset + 1 + LINK_SIZE, 0);
# Line 749  for (;;) Line 768  for (;;)
768                  current_subject > start_subject + md->start_offset)))                  current_subject > start_subject + md->start_offset)))
769            {            {
770            if (match_count < 0) match_count = (offsetcount >= 2)? 1 : 0;            if (match_count < 0) match_count = (offsetcount >= 2)? 1 : 0;
771              else if (match_count > 0 && ++match_count * 2 >= offsetcount)              else if (match_count > 0 && ++match_count * 2 > offsetcount)
772                match_count = 0;                match_count = 0;
773            count = ((match_count == 0)? offsetcount : match_count * 2) - 2;            count = ((match_count == 0)? offsetcount : match_count * 2) - 2;
774            if (count > 0) memmove(offsets + 2, offsets, count * sizeof(int));            if (count > 0) memmove(offsets + 2, offsets, count * sizeof(int));
# Line 822  for (;;) Line 841  for (;;)
841    
842        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
843        case OP_CIRC:        case OP_CIRC:
844        if ((ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0) ||        if (ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0)
           ((ims & PCRE_MULTILINE) != 0 &&  
             ptr != end_subject &&  
             WAS_NEWLINE(ptr)))  
845          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
846        break;        break;
847    
848        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
849        case OP_EOD:        case OP_CIRCM:
850        if (ptr >= end_subject) { ADD_ACTIVE(state_offset + 1, 0); }        if ((ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0) ||
851              (ptr != end_subject && WAS_NEWLINE(ptr)))
852            { ADD_ACTIVE(state_offset + 1, 0); }
853        break;        break;
854    
855        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
856        case OP_OPT:        case OP_EOD:
857        ims = code[1];        if (ptr >= end_subject)
858        ADD_ACTIVE(state_offset + 2, 0);          {
859            if ((md->moptions & PCRE_PARTIAL_HARD) != 0)
860              could_continue = TRUE;
861            else { ADD_ACTIVE(state_offset + 1, 0); }
862            }
863        break;        break;
864    
865        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
# Line 871  for (;;) Line 893  for (;;)
893    
894        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
895        case OP_EODN:        case OP_EODN:
896        if (clen == 0 || (IS_NEWLINE(ptr) && ptr == end_subject - md->nllen))        if (clen == 0 && (md->moptions & PCRE_PARTIAL_HARD) != 0)
897            could_continue = TRUE;
898          else if (clen == 0 || (IS_NEWLINE(ptr) && ptr == end_subject - md->nllen))
899          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
900        break;        break;
901    
# Line 879  for (;;) Line 903  for (;;)
903        case OP_DOLL:        case OP_DOLL:
904        if ((md->moptions & PCRE_NOTEOL) == 0)        if ((md->moptions & PCRE_NOTEOL) == 0)
905          {          {
906          if (clen == 0 ||          if (clen == 0 && (md->moptions & PCRE_PARTIAL_HARD) != 0)
907              could_continue = TRUE;
908            else if (clen == 0 ||
909              ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr) &&              ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr) &&
910                 ((ims & PCRE_MULTILINE) != 0 || ptr == end_subject - md->nllen)                 (ptr == end_subject - md->nllen)
911              ))              ))
912            { ADD_ACTIVE(state_offset + 1, 0); }            { ADD_ACTIVE(state_offset + 1, 0); }
913          }          }
914        else if ((ims & PCRE_MULTILINE) != 0 && IS_NEWLINE(ptr))        break;
915    
916          /*-----------------------------------------------------------------*/
917          case OP_DOLLM:
918          if ((md->moptions & PCRE_NOTEOL) == 0)
919            {
920            if (clen == 0 && (md->moptions & PCRE_PARTIAL_HARD) != 0)
921              could_continue = TRUE;
922            else if (clen == 0 ||
923                ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr)))
924              { ADD_ACTIVE(state_offset + 1, 0); }
925            }
926          else if (IS_NEWLINE(ptr))
927          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
928        break;        break;
929    
# Line 922  for (;;) Line 960  for (;;)
960            if (utf8) BACKCHAR(temp);            if (utf8) BACKCHAR(temp);
961  #endif  #endif
962            GETCHARTEST(d, temp);            GETCHARTEST(d, temp);
963  #ifdef SUPPORT_UCP  #ifdef SUPPORT_UCP
964            if ((md->poptions & PCRE_UCP) != 0)            if ((md->poptions & PCRE_UCP) != 0)
965              {              {
966              if (d == '_') left_word = TRUE; else              if (d == '_') left_word = TRUE; else
967                {                {
968                int cat = UCD_CATEGORY(d);                int cat = UCD_CATEGORY(d);
969                left_word = (cat == ucp_L || cat == ucp_N);                left_word = (cat == ucp_L || cat == ucp_N);
970                }                }
971              }              }
972            else            else
973  #endif  #endif
974            left_word = d < 256 && (ctypes[d] & ctype_word) != 0;            left_word = d < 256 && (ctypes[d] & ctype_word) != 0;
975            }            }
976          else left_word = FALSE;          else left_word = FALSE;
977    
978          if (clen > 0)          if (clen > 0)
979            {            {
980  #ifdef SUPPORT_UCP  #ifdef SUPPORT_UCP
981            if ((md->poptions & PCRE_UCP) != 0)            if ((md->poptions & PCRE_UCP) != 0)
982              {              {
983              if (c == '_') right_word = TRUE; else              if (c == '_') right_word = TRUE; else
984                {                {
985                int cat = UCD_CATEGORY(c);                int cat = UCD_CATEGORY(c);
986                right_word = (cat == ucp_L || cat == ucp_N);                right_word = (cat == ucp_L || cat == ucp_N);
987                }                }
988              }              }
989            else            else
990  #endif  #endif
991            right_word = c < 256 && (ctypes[c] & ctype_word) != 0;            right_word = c < 256 && (ctypes[c] & ctype_word) != 0;
992            }            }
993          else right_word = FALSE;          else right_word = FALSE;
994    
995          if ((left_word == right_word) == (codevalue == OP_NOT_WORD_BOUNDARY))          if ((left_word == right_word) == (codevalue == OP_NOT_WORD_BOUNDARY))
# Line 979  for (;;) Line 1017  for (;;)
1017            break;            break;
1018    
1019            case PT_LAMP:            case PT_LAMP:
1020            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1021                 prop->chartype == ucp_Lt;                 prop->chartype == ucp_Lt;
1022            break;            break;
1023    
# Line 994  for (;;) Line 1032  for (;;)
1032            case PT_SC:            case PT_SC:
1033            OK = prop->script == code[2];            OK = prop->script == code[2];
1034            break;            break;
1035    
1036            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1037    
1038            case PT_ALNUM:            case PT_ALNUM:
1039            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1040                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1041            break;            break;
1042    
1043            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1044            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1045                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1046            break;            break;
1047    
1048            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1049            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1050                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1051                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1052            break;            break;
1053    
1054            case PT_WORD:            case PT_WORD:
1055            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1056                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1057                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1058            break;            break;
1059    
1060            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1061    
# Line 1173  for (;;) Line 1211  for (;;)
1211            break;            break;
1212    
1213            case PT_LAMP:            case PT_LAMP:
1214            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1215              prop->chartype == ucp_Lt;              prop->chartype == ucp_Lt;
1216            break;            break;
1217    
# Line 1190  for (;;) Line 1228  for (;;)
1228            break;            break;
1229    
1230            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1231    
1232            case PT_ALNUM:            case PT_ALNUM:
1233            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1234                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1235            break;            break;
1236    
1237            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1238            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1239                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1240            break;            break;
1241    
1242            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1243            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1244                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1245                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1246            break;            break;
1247    
1248            case PT_WORD:            case PT_WORD:
1249            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1250                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1251                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1252            break;            break;
1253    
1254            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1255    
# Line 1420  for (;;) Line 1458  for (;;)
1458            break;            break;
1459    
1460            case PT_LAMP:            case PT_LAMP:
1461            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1462              prop->chartype == ucp_Lt;              prop->chartype == ucp_Lt;
1463            break;            break;
1464    
# Line 1435  for (;;) Line 1473  for (;;)
1473            case PT_SC:            case PT_SC:
1474            OK = prop->script == code[3];            OK = prop->script == code[3];
1475            break;            break;
1476    
1477            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1478    
1479            case PT_ALNUM:            case PT_ALNUM:
1480            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1481                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1482            break;            break;
1483    
1484            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1485            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1486                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1487            break;            break;
1488    
1489            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1490            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1491                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1492                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1493            break;            break;
1494    
1495            case PT_WORD:            case PT_WORD:
1496            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1497                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1498                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1499            break;            break;
1500    
1501            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1502    
# Line 1692  for (;;) Line 1730  for (;;)
1730            break;            break;
1731    
1732            case PT_LAMP:            case PT_LAMP:
1733            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||            OK = prop->chartype == ucp_Lu || prop->chartype == ucp_Ll ||
1734              prop->chartype == ucp_Lt;              prop->chartype == ucp_Lt;
1735            break;            break;
1736    
# Line 1707  for (;;) Line 1745  for (;;)
1745            case PT_SC:            case PT_SC:
1746            OK = prop->script == code[5];            OK = prop->script == code[5];
1747            break;            break;
1748    
1749            /* These are specials for combination cases. */            /* These are specials for combination cases. */
1750    
1751            case PT_ALNUM:            case PT_ALNUM:
1752            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1753                 _pcre_ucp_gentype[prop->chartype] == ucp_N;                 _pcre_ucp_gentype[prop->chartype] == ucp_N;
1754            break;            break;
1755    
1756            case PT_SPACE:    /* Perl space */            case PT_SPACE:    /* Perl space */
1757            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1758                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;                 c == CHAR_HT || c == CHAR_NL || c == CHAR_FF || c == CHAR_CR;
1759            break;            break;
1760    
1761            case PT_PXSPACE:  /* POSIX space */            case PT_PXSPACE:  /* POSIX space */
1762            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_Z ||
1763                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||                 c == CHAR_HT || c == CHAR_NL || c == CHAR_VT ||
1764                 c == CHAR_FF || c == CHAR_CR;                 c == CHAR_FF || c == CHAR_CR;
1765            break;            break;
1766    
1767            case PT_WORD:            case PT_WORD:
1768            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||            OK = _pcre_ucp_gentype[prop->chartype] == ucp_L ||
1769                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||                 _pcre_ucp_gentype[prop->chartype] == ucp_N ||
1770                 c == CHAR_UNDERSCORE;                 c == CHAR_UNDERSCORE;
1771            break;            break;
1772    
1773            /* Should never occur, but keep compilers from grumbling. */            /* Should never occur, but keep compilers from grumbling. */
1774    
# Line 1941  for (;;) Line 1979  for (;;)
1979        break;        break;
1980    
1981        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
1982        case OP_CHARNC:        case OP_CHARI:
1983        if (clen == 0) break;        if (clen == 0) break;
1984    
1985  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
# Line 2127  for (;;) Line 2165  for (;;)
2165        break;        break;
2166    
2167        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2168        /* Match a negated single character. This is only used for one-byte        /* Match a negated single character casefully. This is only used for
2169        characters, that is, we know that d < 256. The character we are        one-byte characters, that is, we know that d < 256. The character we are
2170        checking (c) can be multibyte. */        checking (c) can be multibyte. */
2171    
2172        case OP_NOT:        case OP_NOT:
2173        if (clen > 0)        if (clen > 0 && c != d) { ADD_NEW(state_offset + dlen + 1, 0); }
2174          {        break;
2175          unsigned int otherd = ((ims & PCRE_CASELESS) != 0)? fcc[d] : d;  
2176          if (c != d && c != otherd) { ADD_NEW(state_offset + dlen + 1, 0); }        /*-----------------------------------------------------------------*/
2177          }        /* Match a negated single character caselessly. This is only used for
2178          one-byte characters, that is, we know that d < 256. The character we are
2179          checking (c) can be multibyte. */
2180    
2181          case OP_NOTI:
2182          if (clen > 0 && c != d && c != fcc[d])
2183            { ADD_NEW(state_offset + dlen + 1, 0); }
2184        break;        break;
2185    
2186        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2187          case OP_PLUSI:
2188          case OP_MINPLUSI:
2189          case OP_POSPLUSI:
2190          case OP_NOTPLUSI:
2191          case OP_NOTMINPLUSI:
2192          case OP_NOTPOSPLUSI:
2193          caseless = TRUE;
2194          codevalue -= OP_STARI - OP_STAR;
2195    
2196          /* Fall through */
2197        case OP_PLUS:        case OP_PLUS:
2198        case OP_MINPLUS:        case OP_MINPLUS:
2199        case OP_POSPLUS:        case OP_POSPLUS:
# Line 2151  for (;;) Line 2205  for (;;)
2205        if (clen > 0)        if (clen > 0)
2206          {          {
2207          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2208          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2209            {            {
2210  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2211            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2179  for (;;) Line 2233  for (;;)
2233        break;        break;
2234    
2235        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2236          case OP_QUERYI:
2237          case OP_MINQUERYI:
2238          case OP_POSQUERYI:
2239          case OP_NOTQUERYI:
2240          case OP_NOTMINQUERYI:
2241          case OP_NOTPOSQUERYI:
2242          caseless = TRUE;
2243          codevalue -= OP_STARI - OP_STAR;
2244          /* Fall through */
2245        case OP_QUERY:        case OP_QUERY:
2246        case OP_MINQUERY:        case OP_MINQUERY:
2247        case OP_POSQUERY:        case OP_POSQUERY:
# Line 2189  for (;;) Line 2252  for (;;)
2252        if (clen > 0)        if (clen > 0)
2253          {          {
2254          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2255          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2256            {            {
2257  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2258            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2215  for (;;) Line 2278  for (;;)
2278        break;        break;
2279    
2280        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2281          case OP_STARI:
2282          case OP_MINSTARI:
2283          case OP_POSSTARI:
2284          case OP_NOTSTARI:
2285          case OP_NOTMINSTARI:
2286          case OP_NOTPOSSTARI:
2287          caseless = TRUE;
2288          codevalue -= OP_STARI - OP_STAR;
2289          /* Fall through */
2290        case OP_STAR:        case OP_STAR:
2291        case OP_MINSTAR:        case OP_MINSTAR:
2292        case OP_POSSTAR:        case OP_POSSTAR:
# Line 2225  for (;;) Line 2297  for (;;)
2297        if (clen > 0)        if (clen > 0)
2298          {          {
2299          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2300          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2301            {            {
2302  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2303            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2251  for (;;) Line 2323  for (;;)
2323        break;        break;
2324    
2325        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2326          case OP_EXACTI:
2327          case OP_NOTEXACTI:
2328          caseless = TRUE;
2329          codevalue -= OP_STARI - OP_STAR;
2330          /* Fall through */
2331        case OP_EXACT:        case OP_EXACT:
2332        case OP_NOTEXACT:        case OP_NOTEXACT:
2333        count = current_state->count;  /* Number already matched */        count = current_state->count;  /* Number already matched */
2334        if (clen > 0)        if (clen > 0)
2335          {          {
2336          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2337          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2338            {            {
2339  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2340            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2281  for (;;) Line 2358  for (;;)
2358        break;        break;
2359    
2360        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2361          case OP_UPTOI:
2362          case OP_MINUPTOI:
2363          case OP_POSUPTOI:
2364          case OP_NOTUPTOI:
2365          case OP_NOTMINUPTOI:
2366          case OP_NOTPOSUPTOI:
2367          caseless = TRUE;
2368          codevalue -= OP_STARI - OP_STAR;
2369          /* Fall through */
2370        case OP_UPTO:        case OP_UPTO:
2371        case OP_MINUPTO:        case OP_MINUPTO:
2372        case OP_POSUPTO:        case OP_POSUPTO:
# Line 2292  for (;;) Line 2378  for (;;)
2378        if (clen > 0)        if (clen > 0)
2379          {          {
2380          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2381          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2382            {            {
2383  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2384            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2435  for (;;) Line 2521  for (;;)
2521            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2522            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2523            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
2524            ims,                                  /* the current ims flags */            rlevel);                              /* function recursion level */
           rlevel,                               /* function recursion level */  
           recursing);                           /* pass on regex recursion */  
2525    
2526          if (rc == PCRE_ERROR_DFA_UITEM) return rc;          if (rc == PCRE_ERROR_DFA_UITEM) return rc;
2527          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))
# Line 2476  for (;;) Line 2560  for (;;)
2560              cb.capture_top      = 1;              cb.capture_top      = 1;
2561              cb.capture_last     = -1;              cb.capture_last     = -1;
2562              cb.callout_data     = md->callout_data;              cb.callout_data     = md->callout_data;
2563                cb.mark             = NULL;   /* No (*MARK) support */
2564              if ((rrc = (*pcre_callout)(&cb)) < 0) return rrc;   /* Abandon */              if ((rrc = (*pcre_callout)(&cb)) < 0) return rrc;   /* Abandon */
2565              }              }
2566            if (rrc > 0) break;                      /* Fail this thread */            if (rrc > 0) break;                      /* Fail this thread */
# Line 2502  for (;;) Line 2587  for (;;)
2587            {            {
2588            int value = GET2(code, LINK_SIZE+2);            int value = GET2(code, LINK_SIZE+2);
2589            if (value != RREF_ANY) return PCRE_ERROR_DFA_UCOND;            if (value != RREF_ANY) return PCRE_ERROR_DFA_UCOND;
2590            if (recursing > 0)            if (md->recursive != NULL)
2591              { ADD_ACTIVE(state_offset + LINK_SIZE + 4, 0); }              { ADD_ACTIVE(state_offset + LINK_SIZE + 4, 0); }
2592            else { ADD_ACTIVE(state_offset + codelink + LINK_SIZE + 1, 0); }            else { ADD_ACTIVE(state_offset + codelink + LINK_SIZE + 1, 0); }
2593            }            }
# Line 2526  for (;;) Line 2611  for (;;)
2611              sizeof(local_offsets)/sizeof(int),    /* size of same */              sizeof(local_offsets)/sizeof(int),    /* size of same */
2612              local_workspace,                      /* workspace vector */              local_workspace,                      /* workspace vector */
2613              sizeof(local_workspace)/sizeof(int),  /* size of same */              sizeof(local_workspace)/sizeof(int),  /* size of same */
2614              ims,                                  /* the current ims flags */              rlevel);                              /* function recursion level */
             rlevel,                               /* function recursion level */  
             recursing);                           /* pass on regex recursion */  
2615    
2616            if (rc == PCRE_ERROR_DFA_UITEM) return rc;            if (rc == PCRE_ERROR_DFA_UITEM) return rc;
2617            if ((rc >= 0) ==            if ((rc >= 0) ==
# Line 2543  for (;;) Line 2626  for (;;)
2626        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2627        case OP_RECURSE:        case OP_RECURSE:
2628          {          {
2629            dfa_recursion_info *ri;
2630          int local_offsets[1000];          int local_offsets[1000];
2631          int local_workspace[1000];          int local_workspace[1000];
2632            const uschar *callpat = start_code + GET(code, 1);
2633            int recno = (callpat == md->start_code)? 0 :
2634              GET2(callpat, 1 + LINK_SIZE);
2635          int rc;          int rc;
2636    
2637          DPRINTF(("%.*sStarting regex recursion %d\n", rlevel*2-2, SP,          DPRINTF(("%.*sStarting regex recursion\n", rlevel*2-2, SP));
2638            recursing + 1));  
2639            /* Check for repeating a recursion without advancing the subject
2640            pointer. This should catch convoluted mutual recursions. (Some simple
2641            cases are caught at compile time.) */
2642    
2643            for (ri = md->recursive; ri != NULL; ri = ri->prevrec)
2644              if (recno == ri->group_num && ptr == ri->subject_position)
2645                return PCRE_ERROR_RECURSELOOP;
2646    
2647            /* Remember this recursion and where we started it so as to
2648            catch infinite loops. */
2649    
2650            new_recursive.group_num = recno;
2651            new_recursive.subject_position = ptr;
2652            new_recursive.prevrec = md->recursive;
2653            md->recursive = &new_recursive;
2654    
2655          rc = internal_dfa_exec(          rc = internal_dfa_exec(
2656            md,                                   /* fixed match data */            md,                                   /* fixed match data */
2657            start_code + GET(code, 1),            /* this subexpression's code */            callpat,                              /* this subexpression's code */
2658            ptr,                                  /* where we currently are */            ptr,                                  /* where we currently are */
2659            (int)(ptr - start_subject),           /* start offset */            (int)(ptr - start_subject),           /* start offset */
2660            local_offsets,                        /* offset vector */            local_offsets,                        /* offset vector */
2661            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2662            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2663            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
2664            ims,                                  /* the current ims flags */            rlevel);                              /* function recursion level */
2665            rlevel,                               /* function recursion level */  
2666            recursing + 1);                       /* regex recurse level */          md->recursive = new_recursive.prevrec;  /* Done this recursion */
2667    
2668          DPRINTF(("%.*sReturn from regex recursion %d: rc=%d\n", rlevel*2-2, SP,          DPRINTF(("%.*sReturn from regex recursion: rc=%d\n", rlevel*2-2, SP,
2669            recursing + 1, rc));            rc));
2670    
2671          /* Ran out of internal offsets */          /* Ran out of internal offsets */
2672    
# Line 2597  for (;;) Line 2699  for (;;)
2699        break;        break;
2700    
2701        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2702          case OP_BRAPOS:
2703          case OP_SBRAPOS:
2704          case OP_CBRAPOS:
2705          case OP_SCBRAPOS:
2706          case OP_BRAPOSZERO:
2707            {
2708            int charcount, matched_count;
2709            const uschar *local_ptr = ptr;
2710            BOOL allow_zero;
2711    
2712            if (codevalue == OP_BRAPOSZERO)
2713              {
2714              allow_zero = TRUE;
2715              codevalue = *(++code);  /* Codevalue will be one of above BRAs */
2716              }
2717            else allow_zero = FALSE;
2718    
2719            /* Loop to match the subpattern as many times as possible as if it were
2720            a complete pattern. */
2721    
2722            for (matched_count = 0;; matched_count++)
2723              {
2724              int local_offsets[2];
2725              int local_workspace[1000];
2726    
2727              int rc = internal_dfa_exec(
2728                md,                                   /* fixed match data */
2729                code,                                 /* this subexpression's code */
2730                local_ptr,                            /* where we currently are */
2731                (int)(ptr - start_subject),           /* start offset */
2732                local_offsets,                        /* offset vector */
2733                sizeof(local_offsets)/sizeof(int),    /* size of same */
2734                local_workspace,                      /* workspace vector */
2735                sizeof(local_workspace)/sizeof(int),  /* size of same */
2736                rlevel);                              /* function recursion level */
2737    
2738              /* Failed to match */
2739    
2740              if (rc < 0)
2741                {
2742                if (rc != PCRE_ERROR_NOMATCH) return rc;
2743                break;
2744                }
2745    
2746              /* Matched: break the loop if zero characters matched. */
2747    
2748              charcount = local_offsets[1] - local_offsets[0];
2749              if (charcount == 0) break;
2750              local_ptr += charcount;    /* Advance temporary position ptr */
2751              }
2752    
2753            /* At this point we have matched the subpattern matched_count
2754            times, and local_ptr is pointing to the character after the end of the
2755            last match. */
2756    
2757            if (matched_count > 0 || allow_zero)
2758              {
2759              const uschar *end_subpattern = code;
2760              int next_state_offset;
2761    
2762              do { end_subpattern += GET(end_subpattern, 1); }
2763                while (*end_subpattern == OP_ALT);
2764              next_state_offset =
2765                (int)(end_subpattern - start_code + LINK_SIZE + 1);
2766    
2767              /* Optimization: if there are no more active states, and there
2768              are no new states yet set up, then skip over the subject string
2769              right here, to save looping. Otherwise, set up the new state to swing
2770              into action when the end of the matched substring is reached. */
2771    
2772              if (i + 1 >= active_count && new_count == 0)
2773                {
2774                ptr = local_ptr;
2775                clen = 0;
2776                ADD_NEW(next_state_offset, 0);
2777                }
2778              else
2779                {
2780                const uschar *p = ptr;
2781                const uschar *pp = local_ptr;
2782                charcount = pp - p;
2783                while (p < pp) if ((*p++ & 0xc0) == 0x80) charcount--;
2784                ADD_NEW_DATA(-next_state_offset, 0, (charcount - 1));
2785                }
2786              }
2787            }
2788          break;
2789    
2790          /*-----------------------------------------------------------------*/
2791        case OP_ONCE:        case OP_ONCE:
2792          {          {
2793          int local_offsets[2];          int local_offsets[2];
# Line 2611  for (;;) Line 2802  for (;;)
2802            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2803            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2804            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
2805            ims,                                  /* the current ims flags */            rlevel);                              /* function recursion level */
           rlevel,                               /* function recursion level */  
           recursing);                           /* pass on regex recursion */  
2806    
2807          if (rc >= 0)          if (rc >= 0)
2808            {            {
# Line 2623  for (;;) Line 2812  for (;;)
2812    
2813            do { end_subpattern += GET(end_subpattern, 1); }            do { end_subpattern += GET(end_subpattern, 1); }
2814              while (*end_subpattern == OP_ALT);              while (*end_subpattern == OP_ALT);
2815            next_state_offset =            next_state_offset =
2816              (int)(end_subpattern - start_code + LINK_SIZE + 1);              (int)(end_subpattern - start_code + LINK_SIZE + 1);
2817    
2818            /* If the end of this subpattern is KETRMAX or KETRMIN, we must            /* If the end of this subpattern is KETRMAX or KETRMIN, we must
# Line 2647  for (;;) Line 2836  for (;;)
2836            /* Optimization: if there are no more active states, and there            /* Optimization: if there are no more active states, and there
2837            are no new states yet set up, then skip over the subject string            are no new states yet set up, then skip over the subject string
2838            right here, to save looping. Otherwise, set up the new state to swing            right here, to save looping. Otherwise, set up the new state to swing
2839            into action when the end of the substring is reached. */            into action when the end of the matched substring is reached. */
2840    
2841            else if (i + 1 >= active_count && new_count == 0)            else if (i + 1 >= active_count && new_count == 0)
2842              {              {
# Line 2677  for (;;) Line 2866  for (;;)
2866              if (repeat_state_offset >= 0)              if (repeat_state_offset >= 0)
2867                { ADD_NEW_DATA(-repeat_state_offset, 0, (charcount - 1)); }                { ADD_NEW_DATA(-repeat_state_offset, 0, (charcount - 1)); }
2868              }              }
   
2869            }            }
2870          else if (rc != PCRE_ERROR_NOMATCH) return rc;          else if (rc != PCRE_ERROR_NOMATCH) return rc;
2871          }          }
# Line 2704  for (;;) Line 2892  for (;;)
2892          cb.capture_top      = 1;          cb.capture_top      = 1;
2893          cb.capture_last     = -1;          cb.capture_last     = -1;
2894          cb.callout_data     = md->callout_data;          cb.callout_data     = md->callout_data;
2895            cb.mark             = NULL;   /* No (*MARK) support */
2896          if ((rrc = (*pcre_callout)(&cb)) < 0) return rrc;   /* Abandon */          if ((rrc = (*pcre_callout)(&cb)) < 0) return rrc;   /* Abandon */
2897          }          }
2898        if (rrc == 0)        if (rrc == 0)
# Line 2744  for (;;) Line 2933  for (;;)
2933          ((md->moptions & PCRE_PARTIAL_SOFT) != 0 &&  /* Soft partial and */          ((md->moptions & PCRE_PARTIAL_SOFT) != 0 &&  /* Soft partial and */
2934           match_count < 0)                            /* no matches */           match_count < 0)                            /* no matches */
2935          ) &&                                         /* And... */          ) &&                                         /* And... */
2936          ptr >= end_subject &&                     /* Reached end of subject */          ptr >= end_subject &&                  /* Reached end of subject */
2937          ptr > current_subject)                    /* Matched non-empty string */          ptr > md->start_used_ptr)              /* Inspected non-empty string */
2938        {        {
2939        if (offsetcount >= 2)        if (offsetcount >= 2)
2940          {          {
# Line 2835  if (re == NULL || subject == NULL || wor Line 3024  if (re == NULL || subject == NULL || wor
3024     (offsets == NULL && offsetcount > 0)) return PCRE_ERROR_NULL;     (offsets == NULL && offsetcount > 0)) return PCRE_ERROR_NULL;
3025  if (offsetcount < 0) return PCRE_ERROR_BADCOUNT;  if (offsetcount < 0) return PCRE_ERROR_BADCOUNT;
3026  if (wscount < 20) return PCRE_ERROR_DFA_WSSIZE;  if (wscount < 20) return PCRE_ERROR_DFA_WSSIZE;
3027    if (start_offset < 0 || start_offset > length) return PCRE_ERROR_BADOFFSET;
3028    
3029  /* We need to find the pointer to any study data before we test for byte  /* We need to find the pointer to any study data before we test for byte
3030  flipping, so we scan the extra_data block first. This may set two fields in the  flipping, so we scan the extra_data block first. This may set two fields in the
# Line 2953  back the character offset. */ Line 3143  back the character offset. */
3143  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
3144  if (utf8 && (options & PCRE_NO_UTF8_CHECK) == 0)  if (utf8 && (options & PCRE_NO_UTF8_CHECK) == 0)
3145    {    {
3146    if (_pcre_valid_utf8((uschar *)subject, length) >= 0)    int erroroffset;
3147      return PCRE_ERROR_BADUTF8;    int errorcode = _pcre_valid_utf8((uschar *)subject, length, &erroroffset);
3148    if (start_offset > 0 && start_offset < length)    if (errorcode != 0)
3149      {      {
3150      int tb = ((uschar *)subject)[start_offset];      if (offsetcount >= 2)
     if (tb > 127)  
3151        {        {
3152        tb &= 0xc0;        offsets[0] = erroroffset;
3153        if (tb != 0 && tb != 0xc0) return PCRE_ERROR_BADUTF8_OFFSET;        offsets[1] = errorcode;
3154        }        }
3155        return (errorcode <= PCRE_UTF8_ERR5 && (options & PCRE_PARTIAL_HARD) != 0)?
3156          PCRE_ERROR_SHORTUTF8 : PCRE_ERROR_BADUTF8;
3157      }      }
3158      if (start_offset > 0 && start_offset < length &&
3159            (((USPTR)subject)[start_offset] & 0xc0) == 0x80)
3160        return PCRE_ERROR_BADUTF8_OFFSET;
3161    }    }
3162  #endif  #endif
3163    
# Line 3049  for (;;) Line 3243  for (;;)
3243    
3244      /* There are some optimizations that avoid running the match if a known      /* There are some optimizations that avoid running the match if a known
3245      starting point is not found. However, there is an option that disables      starting point is not found. However, there is an option that disables
3246      these, for testing and for ensuring that all callouts do actually occur. */      these, for testing and for ensuring that all callouts do actually occur.
3247        The option can be set in the regex by (*NO_START_OPT) or passed in
3248        match-time options. */
3249    
3250      if ((options & PCRE_NO_START_OPTIMIZE) == 0)      if (((options | re->options) & PCRE_NO_START_OPTIMIZE) == 0)
3251        {        {
3252        /* Advance to a known first byte. */        /* Advance to a known first byte. */
3253    
# Line 3109  for (;;) Line 3305  for (;;)
3305          while (current_subject < end_subject)          while (current_subject < end_subject)
3306            {            {
3307            register unsigned int c = *current_subject;            register unsigned int c = *current_subject;
3308            if ((start_bits[c/8] & (1 << (c&7))) == 0) current_subject++;            if ((start_bits[c/8] & (1 << (c&7))) == 0)
3309              else break;              {
3310                current_subject++;
3311    #ifdef SUPPORT_UTF8
3312                if (utf8)
3313                  while(current_subject < end_subject &&
3314                        (*current_subject & 0xc0) == 0x80) current_subject++;
3315    #endif
3316                }
3317              else break;
3318            }            }
3319          }          }
3320        }        }
# Line 3191  for (;;) Line 3395  for (;;)
3395    /* OK, now we can do the business */    /* OK, now we can do the business */
3396    
3397    md->start_used_ptr = current_subject;    md->start_used_ptr = current_subject;
3398      md->recursive = NULL;
3399    
3400    rc = internal_dfa_exec(    rc = internal_dfa_exec(
3401      md,                                /* fixed match data */      md,                                /* fixed match data */
# Line 3201  for (;;) Line 3406  for (;;)
3406      offsetcount,                       /* size of same */      offsetcount,                       /* size of same */
3407      workspace,                         /* workspace vector */      workspace,                         /* workspace vector */
3408      wscount,                           /* size of same */      wscount,                           /* size of same */
3409      re->options & (PCRE_CASELESS|PCRE_MULTILINE|PCRE_DOTALL), /* ims flags */      0);                                /* function recurse level */
     0,                                 /* function recurse level */  
     0);                                /* regex recurse level */  
3410    
3411    /* Anything other than "no match" means we are done, always; otherwise, carry    /* Anything other than "no match" means we are done, always; otherwise, carry
3412    on only if not anchored. */    on only if not anchored. */

Legend:
Removed from v.530  
changed lines
  Added in v.680

  ViewVC Help
Powered by ViewVC 1.1.5