Search the MySQL manual:
Subscribe to the monthly
MySQL Newsletter!

F Регулярные выражения в MySQL

Регулярные выражения (regex, regexp) представляют собой мощный способ выполнения сложного поиска.

В MySQL используется расширенная версия предложенной Генри Спенсером (Henry Spencer) реализации регулярных выражений, которая ориентирована на соответствие POSIX 1003.2.

В данном разделе приведен упрощенный справочник; подробности здесь опущены. Чтобы получить более точную информацию, обращайтесь к странице руководства Генри Спенсера regex(7), которая включена в дистрибутив исходного кода. See section B Благодарности.

Регулярное выражение описывает набор строк. Простейшее регулярное выражение не включает в себя специальных символов. Например, регулярное выражение hello означает совпадение с hello и ничего больше.

В нетривиальных регулярных выражениях используются определенные специальные конструкции - это обеспечивает возможность получать соответствие для более чем одной строки. Например, регулярное выражение hello|word соответствует как hello, так и word.

Можно привести и более сложный пример: регулярному выражению B[an]*s соответствует любая из строк: Bananas, Baaaaas, Bs, а также любая другая строка, начинающаяся с B, заканчивающаяся на s и содержащая любое количество символов a или n между ними.

В регулярном выражении могут использоваться любые специальные символы/структуры из числа приведенных ниже:

^
Соответствие началу строки.
mysql> SELECT "fo\nfo" REGEXP "^fo$"; 	-> 0
mysql> SELECT "fofo" REGEXP "^fo"; 	-> 1
$
Соответствие концу строки.
mysql> SELECT "fo\no" REGEXP "^fo\no$"; -> 1
mysql> SELECT "fo\no" REGEXP "^fo$"; 	-> 0
.
Соответствие любому символу (включая перевод строки).
mysql> SELECT "fofo" REGEXP "^f.*"; 	-> 1
mysql> SELECT "fo\nfo" REGEXP "^f.*"; 	-> 1
a*
Соответствие любой последовательности из нуля или более символов "a".
mysql> SELECT "Ban" REGEXP "^Ba*n"; 	-> 1
mysql> SELECT "Baaan" REGEXP "^Ba*n"; 	-> 1
mysql> SELECT "Bn" REGEXP "^Ba*n"; 	-> 1
a+
Соответствие любой последовательности из одного или более символов "a ".
mysql> SELECT "Ban" REGEXP "^Ba+n"; 	-> 1
mysql> SELECT "Bn" REGEXP "^Ba+n"; 	-> 0
a?
Соответствие как нулю, так и одному символу "a".
mysql> SELECT "Bn" REGEXP "^Ba?n"; 	-> 1
mysql> SELECT "Ban" REGEXP "^Ba?n"; 	-> 1
mysql> SELECT "Baan" REGEXP "^Ba?n"; 	-> 0
de|abc
Соответствие как последовательности de, так и последовательности abc.
mysql> SELECT "pi" REGEXP "pi|apa"; 		-> 1
mysql> SELECT "axe" REGEXP "pi|apa"; 		-> 0
mysql> SELECT "apa" REGEXP "pi|apa"; 		-> 1
mysql> SELECT "apa" REGEXP "^(pi|apa)$"; 	-> 1
mysql> SELECT "pi" REGEXP "^(pi|apa)$"; 	-> 1
mysql> SELECT "pix" REGEXP "^(pi|apa)$"; 	-> 0
(abc)*
Соответствие нулю или более вхождениям последовательности abc.
mysql> SELECT "pi" REGEXP "^(pi)*$"; 	-> 1
mysql> SELECT "pip" REGEXP "^(pi)*$"; 	-> 0
mysql> SELECT "pipi" REGEXP "^(pi)*$"; 	-> 1
{1}
{2,3}
Существует более общий способ написания регулярных выражений, позволяющий установить соответствия для нескольких вхождений предшествующего элемента.
a*
Можно записать как a{0,}.
a+
Можно записать как a{1,}.
a?
Можно записать как a{0,1}.
Точнее говоря, элемент, за которым следует ограничение, содержащее одно целое число i без запятой, соответствует последовательности, в точности состоящей из i вхождений данного элемента. Если за элементом следует ограничение, содержащее одно число i и запятую, то устанавливается соответствие для последовательности, содержащей i или более вхождений данного элемента. Если за элементом следует ограничение, содержащее два целых числа i и j, то устанавливается соответствие для последовательности от i до j (включительно) вхождений данного элемента. Оба аргумента должны находится в диапазоне от 0 до RE_DUP_MAX (по умолчанию 255) включительно. Если существуют оба аргумента, то второй должен быть больше первого или равен ему.
[a-dX]
[^a-dX]
Устанавливает соответствие для любого символа, являющегося (или не являющегося, если используется ^) символом a, b, c, d или X. Для литерального включения символа ] следует сразу же после него написать открывающую скобку [. Для литерального включения символа - он должен быть написан первым или последним. Таким образом, выражение [0-9] устанавливает соответствие для любой десятичной цифры. Любой символ, для которого не задано определенное значение внутри пары скобок [], не имеет специального значения и совпадает только с самим собой.
mysql> SELECT "aXbc" REGEXP "[a-dXYZ]"; 	-> 1
mysql> SELECT "aXbc" REGEXP "^[a-dXYZ]$"; 	-> 0
mysql> SELECT "aXbc" REGEXP "^[a-dXYZ]+$"; 	-> 1
mysql> SELECT "aXbc" REGEXP "^[^a-dXYZ]+$"; 	-> 0
mysql> SELECT "gheis" REGEXP "^[^a-dXYZ]+$"; 	-> 1
mysql> SELECT "gheisa" REGEXP "^[^a-dXYZ]+$"; 	-> 0
[[.characters.]]
Последовательность символов данного элемента сравнения. Эта последовательность представляет собой единственный элемент из списка в выражении в скобках. Выражение в скобках, содержащее многосимвольный сравнивающий элемент, может, следовательно, искать соответствие более, чем одного, например, если последовательность сравнения включает в себя элемент сравнения ch, то регулярное выражение [[.ch.]]*c устанавливает соответствие с первыми пятью символами выражения chchcc.
[=character_class=]
Класс эквивалентности, означающий, что последовательности символов всех элементов сравнения, включенных в данный класс, эквивалентны между собой. Например, если o и (+) являются членами класса эквивалентности, то последовательности [[=o=]], [[=(+)=]] и [o(+)] все являются синонимичными. Класс эквивалентности может не быть конечной точкой диапазона.
[:character_class:]
Имя класса символов, заключенное внутри выражения в скобках [: имя :], обозначает список всех символов, принадлежащих данному классу. Имена стандартных классов символов следующие:
Имя Имя Имя
alnum digit punct
alpha graph space
blank lower upper
cntrl print xdigit
Они обозначают классы символов, определенные на странице ctype(3). Локаль может предоставлять другие классы. Класс символов не может использоваться как конечная точка диапазона.
mysql> SELECT "justalnums" REGEXP "[[:alnum:]]+"; 	-> 1
mysql> SELECT "!!" REGEXP "[[:alnum:]]+"; 		-> 0
[[:<:]]
[[:>:]]
Эти выражения устанавливают соответствие с нулевой строкой в начале и в конце слова соответственно. Слово определяется как последовательность символов слова, которой не предшествуют и за которой не следуют символы слова. Под символом слова понимается любая буква или цифра (как определено в ctype(3)) или подчеркивание (_).
mysql> SELECT "a word a" REGEXP "[[:<:]]word[[:>:]]"; 		  -> 1
mysql> SELECT "a xword a" REGEXP "[[:<:]]word[[:>:]]"; 		  -> 0
mysql> SELECT "weeknights" REGEXP "^(wee|week)(knights|nights)$"; -> 1

User Comments

Posted by [name withheld] on May 30 2003 10:17am[Delete] [Edit]

If you are searching for literal parentheses, you have to enclose each parenthesis in brackets; otherwise, mySQL thinks they're part of the regular expression syntax. For instance:

WHERE phone REGEXP '(435)';

would return any phone numbers that have the sequence 435 in any part of the string, such as "1(801)555-4351". However:

WHERE phone REGEXP '[(]435[)]';

would return only phone numbers with (435), such as "1(435)555-5555".

Posted by [name withheld] on May 30 2003 10:46am[Delete] [Edit]

There really should be a "see also" link to Section 3.3.4.7 "Pattern Matching" (http://www.mysql.com/doc/en/Pattern_matching.html) somewhere on this doc page. I couldn't get REGEXP to work right for me till I found a very important note on the Pattern Matching page regarding CASE-SENSITIVITY:

"Prior to MySQL Version 3.23.4, REGEXP is case sensitive.... From MySQL 3.23.4 on, to force a REGEXP comparison to be case sensitive, use the BINARY keyword to make one of the strings a binary string."

So I finally got my REGEXP (which searches for any uppercase letters in a user id) to work correctly:

mysql> SELECT * FROM user WHERE id REGEXP BINARY "[A-Z]";

Posted by Marcello Alves on June 5 2003 10:11am[Delete] [Edit]

It's far beyond the scope of this documentation to dwell on all the gory details of regular expressions. Should you have any doubts, please refer to a good book on the subject like "Mastering Regular Expressions" (http://www.oreilly.com/catalog/regex/). References online include http://sitescooper.org/tao_regexps.html and http://www.regexlib.com/

Posted by a j stiles on November 3 2003 4:30am[Delete] [Edit]

The regular expression support in MySQL seems to be based on traditional-style regex (like ereg() in PHP), not the more sophisticated regular expression matching found in Perl or PHP's preg_match(). And in case the above doesn't make it clear (being mostly SELECT statements using the function directly to return a 1 or 0), you typically would use the REGEXP function in a WHERE clause like this:

SELECT * FROM foo WHERE bar REGEXP "baz"

To match a "special" character such as $, you need to prefix it with the backslash \ character. So \$ matches an actual dollar sign. However, in almost any programming language that claims a "C-like" syntax, that backslash is likely to get picked up on as a special character. So you may need to use an extra backslash. Also, at least in Perl and PHP, the $ is a special character itself, because it indicates that what follows is a variable name - so it will need a backslash too.

In Perl or PHP, you probably will write something like this to match on a line starting with a $ sign:

$query = "SELECT * FROM `foo` WHERE `bar` REGEXP \"^\\\$\""

I'll explain the special characters in that and what they mean:
backslash, speech mark = a literal speech mark
HAT sign = beginning of line
two backslashes = a literal backslash
backslash, dollar = a literal dollar sign
backslash, speech mark = a literal speech mark

Now if you print $query, it will have the value
SELECT * FROM `foo` WHERE `bar` REGEXP "^\$"
which is what you really want, and how you would type it into the mysql command line. Remember also that PHPMyAdmin expects you to put a backslash before a backslash or apostrophe. So in PHPMyAdmin you would enter
SELECT * FROM `foo` WHERE `bar` REGEXP "^\\$"

I guess if you only want to use . and .* regular expressions, you may as well stick to using LIKE with the _ and % wildcards, as that is probably a bit faster. Finally, when using regular expressions in *any* language you need to watch out, because it is very easy to write ones that will always match, and almost as easy to write ones that will never match anything. So do check!

Posted by Joel Steele on November 13 2003 4:49pm[Delete] [Edit]

One thing to keep in mind when working with Regular Expressions in MySQL is that since the pattern is enclosed in double-quotes any character that you are attempting to escape with a \ must have two \'s

Example:

mysql> select "2c32f32g3" regexp "2.3";

+--------------------------+
| "2c32f32g3" regexp "2.3" |
+--------------------------+
| 1 |
+--------------------------+
1 row in set (0.00 sec)

No good lets try escaping it.

mysql> select "2c32f32g3" regexp "2\.3";
+---------------------------+
| "2c32f32g3" regexp "2\.3" |
+---------------------------+
| 1 |
+---------------------------+
1 row in set (0.00 sec)

Still no good lets try another escape to escape the escape character.

mysql> select "2c32f32g3" regexp "2\\.3";
+----------------------------+
| "2c32f32g3" regexp "2\\.3" |
+----------------------------+
| 0 |
+----------------------------+

Sweet! it worked.

Just something to keep in mind.

Posted by [name withheld] on December 1 2003 8:01am[Delete] [Edit]

A good regex book:
http://all-computer-books.co.uk/0596002890.html

jb

Add your own comment.