Регулярные выражения (regex, regexp) представляют собой мощный способ выполнения сложного поиска.
В MySQL используется расширенная версия предложенной Генри Спенсером (Henry Spencer) реализации регулярных выражений, которая ориентирована на соответствие POSIX 1003.2.
В данном разделе приведен упрощенный справочник; подробности здесь
опущены. Чтобы получить более точную информацию, обращайтесь к странице
руководства Генри Спенсера regex(7)
, которая включена в дистрибутив
исходного кода. See section B Благодарности.
Регулярное выражение описывает набор строк. Простейшее регулярное
выражение не включает в себя специальных символов. Например, регулярное
выражение hello
означает совпадение с hello
и ничего больше.
В нетривиальных регулярных выражениях используются определенные
специальные конструкции - это обеспечивает возможность получать
соответствие для более чем одной строки. Например, регулярное выражение
hello|word
соответствует как hello
, так и word
.
Можно привести и более сложный пример: регулярному выражению B[an]*s
соответствует любая из строк: Bananas
, Baaaaas
, Bs
, а также любая другая
строка, начинающаяся с B
, заканчивающаяся на s
и содержащая любое
количество символов a
или n
между ними.
В регулярном выражении могут использоваться любые специальные символы/структуры из числа приведенных ниже:
^
mysql> SELECT "fo\nfo" REGEXP "^fo$"; -> 0 mysql> SELECT "fofo" REGEXP "^fo"; -> 1
$
mysql> SELECT "fo\no" REGEXP "^fo\no$"; -> 1 mysql> SELECT "fo\no" REGEXP "^fo$"; -> 0
.
mysql> SELECT "fofo" REGEXP "^f.*"; -> 1 mysql> SELECT "fo\nfo" REGEXP "^f.*"; -> 1
a*
mysql> SELECT "Ban" REGEXP "^Ba*n"; -> 1 mysql> SELECT "Baaan" REGEXP "^Ba*n"; -> 1 mysql> SELECT "Bn" REGEXP "^Ba*n"; -> 1
a+
mysql> SELECT "Ban" REGEXP "^Ba+n"; -> 1 mysql> SELECT "Bn" REGEXP "^Ba+n"; -> 0
a?
mysql> SELECT "Bn" REGEXP "^Ba?n"; -> 1 mysql> SELECT "Ban" REGEXP "^Ba?n"; -> 1 mysql> SELECT "Baan" REGEXP "^Ba?n"; -> 0
de|abc
mysql> SELECT "pi" REGEXP "pi|apa"; -> 1 mysql> SELECT "axe" REGEXP "pi|apa"; -> 0 mysql> SELECT "apa" REGEXP "pi|apa"; -> 1 mysql> SELECT "apa" REGEXP "^(pi|apa)$"; -> 1 mysql> SELECT "pi" REGEXP "^(pi|apa)$"; -> 1 mysql> SELECT "pix" REGEXP "^(pi|apa)$"; -> 0
(abc)*
mysql> SELECT "pi" REGEXP "^(pi)*$"; -> 1 mysql> SELECT "pip" REGEXP "^(pi)*$"; -> 0 mysql> SELECT "pipi" REGEXP "^(pi)*$"; -> 1
{1}
{2,3}
a*
a+
a?
i
без запятой, соответствует последовательности, в точности
состоящей из i
вхождений данного элемента. Если за элементом следует
ограничение, содержащее одно число i
и запятую, то устанавливается
соответствие для последовательности, содержащей i
или более вхождений
данного элемента. Если за элементом следует ограничение, содержащее два
целых числа i
и j
, то устанавливается соответствие для последовательности
от i
до j
(включительно) вхождений данного элемента. Оба аргумента должны
находится в диапазоне от 0
до RE_DUP_MAX
(по умолчанию 255) включительно.
Если существуют оба аргумента, то второй должен быть больше первого или
равен ему.
[a-dX]
[^a-dX]
^
) символом a
, b
, c
, d
или X
. Для
литерального включения символа ]
следует сразу же после него написать
открывающую скобку [
. Для литерального включения символа -
он должен быть
написан первым или последним. Таким образом, выражение [0-9]
устанавливает
соответствие для любой десятичной цифры. Любой символ, для которого не
задано определенное значение внутри пары скобок []
, не имеет специального
значения и совпадает только с самим собой.
mysql> SELECT "aXbc" REGEXP "[a-dXYZ]"; -> 1 mysql> SELECT "aXbc" REGEXP "^[a-dXYZ]$"; -> 0 mysql> SELECT "aXbc" REGEXP "^[a-dXYZ]+$"; -> 1 mysql> SELECT "aXbc" REGEXP "^[^a-dXYZ]+$"; -> 0 mysql> SELECT "gheis" REGEXP "^[^a-dXYZ]+$"; -> 1 mysql> SELECT "gheisa" REGEXP "^[^a-dXYZ]+$"; -> 0
[[.characters.]]
ch
, то регулярное выражение [[.ch.]]*c
устанавливает
соответствие с первыми пятью символами выражения chchcc
.
[=character_class=]
o
и (+)
являются членами класса эквивалентности, то
последовательности [[=o=]]
, [[=(+)=]]
и [o(+)]
все являются синонимичными.
Класс эквивалентности может не быть конечной точкой диапазона.
[:character_class:]
[: имя :]
,
обозначает список всех символов, принадлежащих данному классу. Имена
стандартных классов символов следующие:
Имя | Имя | Имя |
alnum | digit | punct |
alpha | graph | space |
blank | lower | upper |
cntrl | xdigit |
ctype(3)
. Локаль
может предоставлять другие классы. Класс символов не может использоваться
как конечная точка диапазона.
mysql> SELECT "justalnums" REGEXP "[[:alnum:]]+"; -> 1 mysql> SELECT "!!" REGEXP "[[:alnum:]]+"; -> 0
[[:<:]]
[[:>:]]
ctype(3)
) или подчеркивание (_
).
mysql> SELECT "a word a" REGEXP "[[:<:]]word[[:>:]]"; -> 1 mysql> SELECT "a xword a" REGEXP "[[:<:]]word[[:>:]]"; -> 0
mysql> SELECT "weeknights" REGEXP "^(wee|week)(knights|nights)$"; -> 1
User Comments
If you are searching for literal parentheses, you have to enclose each parenthesis in brackets; otherwise, mySQL thinks they're part of the regular expression syntax. For instance:
WHERE phone REGEXP '(435)';
would return any phone numbers that have the sequence 435 in any part of the string, such as "1(801)555-4351". However:
WHERE phone REGEXP '[(]435[)]';
would return only phone numbers with (435), such as "1(435)555-5555".
There really should be a "see also" link to Section 3.3.4.7 "Pattern Matching" (http://www.mysql.com/doc/en/Pattern_matching.html) somewhere on this doc page. I couldn't get REGEXP to work right for me till I found a very important note on the Pattern Matching page regarding CASE-SENSITIVITY:
"Prior to MySQL Version 3.23.4, REGEXP is case sensitive.... From MySQL 3.23.4 on, to force a REGEXP comparison to be case sensitive, use the BINARY keyword to make one of the strings a binary string."
So I finally got my REGEXP (which searches for any uppercase letters in a user id) to work correctly:
mysql> SELECT * FROM user WHERE id REGEXP BINARY "[A-Z]";
It's far beyond the scope of this documentation to dwell on all the gory details of regular expressions. Should you have any doubts, please refer to a good book on the subject like "Mastering Regular Expressions" (http://www.oreilly.com/catalog/regex/). References online include http://sitescooper.org/tao_regexps.html and http://www.regexlib.com/
The regular expression support in MySQL seems to be based on traditional-style regex (like ereg() in PHP), not the more sophisticated regular expression matching found in Perl or PHP's preg_match(). And in case the above doesn't make it clear (being mostly SELECT statements using the function directly to return a 1 or 0), you typically would use the REGEXP function in a WHERE clause like this:
SELECT * FROM foo WHERE bar REGEXP "baz"
To match a "special" character such as $, you need to prefix it with the backslash \ character. So \$ matches an actual dollar sign. However, in almost any programming language that claims a "C-like" syntax, that backslash is likely to get picked up on as a special character. So you may need to use an extra backslash. Also, at least in Perl and PHP, the $ is a special character itself, because it indicates that what follows is a variable name - so it will need a backslash too.
In Perl or PHP, you probably will write something like this to match on a line starting with a $ sign:
$query = "SELECT * FROM `foo` WHERE `bar` REGEXP \"^\\\$\""
I'll explain the special characters in that and what they mean:
backslash, speech mark = a literal speech mark
HAT sign = beginning of line
two backslashes = a literal backslash
backslash, dollar = a literal dollar sign
backslash, speech mark = a literal speech mark
Now if you print $query, it will have the value
SELECT * FROM `foo` WHERE `bar` REGEXP "^\$"
which is what you really want, and how you would type it into the mysql command line. Remember also that PHPMyAdmin expects you to put a backslash before a backslash or apostrophe. So in PHPMyAdmin you would enter
SELECT * FROM `foo` WHERE `bar` REGEXP "^\\$"
I guess if you only want to use . and .* regular expressions, you may as well stick to using LIKE with the _ and % wildcards, as that is probably a bit faster. Finally, when using regular expressions in *any* language you need to watch out, because it is very easy to write ones that will always match, and almost as easy to write ones that will never match anything. So do check!
One thing to keep in mind when working with Regular Expressions in MySQL is that since the pattern is enclosed in double-quotes any character that you are attempting to escape with a \ must have two \'s
1 row in set (0.00 sec)Example:
mysql> select "2c32f32g3" regexp "2.3";
No good lets try escaping it.
mysql> select "2c32f32g3" regexp "2\.3";
1 row in set (0.00 sec)
Still no good lets try another escape to escape the escape character.
mysql> select "2c32f32g3" regexp "2\\.3";
Sweet! it worked.
Just something to keep in mind.
A good regex book:
http://all-computer-books.co.uk/0596002890.html
jb
Add your own comment.