Wyrażenia regularne

14 July 2008 Comments

Mechanizm wyrażeń regularnych (ang. regular expressions, czasem skracane do regexp) jest tak naprawdę parserem pewnego języka służącego do precyzyjnego definiowania dozwolonego formatu ciągu. Korzystanie z wyrażeń regularnych polega na stworzeniu za jego pomocą tzw. wzorca, a następnie jego porównania odpowiednimi funkcjami z interesującym nas ciągiem. Na wyjściu otrzymujemy informację, czy ciąg pasuje do wzorca, czy też nie.

Wyrażenia regularne mają jeszcze większe możliwości. Dzięki nim wyciągnięcie dowolnych interesujących nas informacji z ciągu nie stanowi kłopotu. Wystarczy, że znamy wzorzec go opisujący, a system wyrażeń zwróci nam dodatkowo tablicę uzyskanych z jego wnętrza danych, których potrzebujemy. Wyrażenia regularne dają nam także dostęp do znacznie bogatszego w możliwości kuzyna funkcji str_replace() z poprzedniego rozdziału. O ile tamta funkcja bezmyślnie zamieniała wszystkie napotkane wystąpienia jakiegoś fragmentu na inny, dzięki wyrażeniom regularnym możemy zdefiniować naprawdę wymyślne mechanizmy zamiany uwzględniające wiele dodatkowych czynników.

Jak widać, wyrażenia regularne to potężne narzędzie, jednak przez to też skomplikowane. Niemniej każdy szanujący się programista powinien znać przynajmniej jego podstawy, ponieważ praktyka zawodowa pokazuje, iż wykorzystywane są one bardzo często.

W PHP zaimplementowane są dwa mechanizmy wyrażeń: wyrażenia kompatybilne z POSIX (nazwy funkcji zaczynają się od prefiksu ereg_) oraz wyrażenia regularne Perla (nazwy funkcji zaczynają się od preg_). W całym podręczniku będziemy używali jedynie tych drugich - nie tylko posiadają większe możliwości, ale również działają znacznie szybciej, co ma niebagatelne znaczenie w przypadku dużej ilości danych. W sieci wciąż spotkać można artykuły demonstrujące wyrażenia POSIX, jednak my odradzamy ich stosowanie.

Pierwszy przykład

Nasze pierwsze spotkanie praktyczne z wyrażeniami regularnymi rozpoczniemy od prostego sprawdzenia, czy wypełnione pole formularza zawiera dokładnie jedną cyfrę. Do porównywania wzorca z ciągiem służy funkcja preg_match(), która zwraca true, jeżeli zachodzi zgodność.

<?php
	if($_SERVER['REQUEST_METHOD'] == 'POST')
	{
		if(preg_match('/^[0-9]$/D', $_POST['cyfra']))
		{
			echo '<p>Wpisałeś cyfrę '.$_POST['cyfra'].'</p>';
		}
		else
		{
			echo '<p>Nieprawidłowe dane! Skrypt wymaga podania cyfry!</p>';
		}
	}
	else
	{
		echo '<form method="post" action="preg1.php">
			Podaj cyfrę: <input type="text" name="cyfra"/><input type="submit" value="OK"/>
			</form>';
	}
?>

Wykorzystaliśmy tutaj wzorzec /^[0-9]$/D. Zawarty jest on wewnątrz ograniczników /. Poza nimi mogą znajdować się jedynie dodatkowe flagi kontrolne i nic więcej. Znak ^ oznacza początek ciągu, a znak $ koniec lub "prawie" koniec dopuszczając dodatkowo przejście do nowej linii . Dodanie "D" wymusza interpretację $ jako bezwzględnego końca. [0-9] definiuje klasę dozwolonych znaków, jakie mogą pojawić się w danym miejscu. Ostatecznie wzorzec ten opisuje wszystkie ciągi składające się z DOKŁADNIE jednego znaku będącego cyfrą z przedziału 0 do 9. Istnieje jeszcze jeden sposób powiadomienia parsera, ile znaków chcemy tam widzieć. Jest nim użycie kwantyfikatorów zasięgu. Ich składnia jest następująca:

{długość} - dozwolona długość określona jest dokładnie.
{długość_min,długość_max} - podany jest przedział dozwolonych długości
{długość_min,} - określona jest minimalna długość
{,długość_max} - określona jest maksymalna długość

Kwantyfikator umieszczamy po znaku lub klasie dozwolonych znaków, zatem nasze wyrażenie będzie miało postać /^[0-9]{1}$/. W wyrażeniach regularnych można stosować kilka predefiniowanych kwantyfikatorów:

* - 0 lub więcej
+ - 1 lub więcej
? - 0 lub 1 (uwaga: znak ten jest także wykorzystywany w innym kontekście)

Klasy znaków

Nauczymy się teraz bardziej dokładnego definiowania klas znaków, jakich można używać w danym miejscu ciągu. Zasada podstawowa jest bardzo prosta: jeśli w jakimś miejscu napiszemy "a", to parser będzie się tam spodziewać litery "a" występującej dokładnie jeden raz. Jeżeli zastosujemy klasę znaków, definiujemy w ten sposób listę dozwolonych na danej pozycji znaków dokładnie jeden raz. W obu przypadkach "dokładnie jeden raz" można zmienić na dowolną inną długość za pomocą omówionych wyżej kwantyfikatorów. Zatrzymajmy się jednak dokładniej przy tym zwrocie. Skoro dokładnie jeden raz, czemu w takim razie podany wyżej przykład dla wyrażenia /[0-9]/ akceptuje ciągi liczb o dowolnej długości? Aby lepiej pokazać, co naprawdę wtedy ma miejsce, wpisz w formularzu tekst "9a" - o dziwo także i on zostanie przyjęty, mimo że na drugiej pozycji mamy literę! Co jest nie tak? Nic - wyrażenie działa prawidłowo. Parser po prostu osiągnął jego koniec przy sprawdzeniu pierwszego znaku ciągu i resztę przepuścił bez żadnej kontroli. Dlatego istotne jest powiadomienie o tym, gdzie ma znajdować się koniec ciągu.

Tworząc klasę znaków, możemy stosować się do następujących reguł:

Wypisujemy w nawiasach kwadratowych wszystkie dopuszczalne znaki, np. [abcdefgh]
Wprowadzamy zakres: [a-h] (dopuszczalne małe litery od a do h)
Wprowadzamy kilka zakresów: [a-hA-H] (dopuszczalne duże i małe litery od a do h i od A do H).

Aby wprowadzić jakiś znak specjalny do klasy, poprzedzamy go backslashem: [a-hA-H\-] - znaki duże i małe od a do h wraz z pauzą. Dysponując tymi wiadomościami, jesteśmy już w stanie napisać pierwszą funkcję kontrolującą (w ograniczonym stopniu) poprawność adresu e-mail:

<?php
	if($_SERVER['REQUEST_METHOD'] == 'POST')
	{
		if(preg_match('/^[a-zA-Z0-9\.\-\_]+\@[a-zA-Z0-9\.\-\_]+\.[a-z]{2,4}$/D', $_POST['email']))
		{
			echo '<p>Wpisałeś e-mail '.$_POST['email'].'</p>';
		}
		else
		{
			echo '<p>Nieprawidłowe dane! Skrypt wymaga podania adresu e-mail!</p>';
		}
	}
	else
	{
		echo '<form method="post" action="preg2.php">
			Podaj adres e-mail: <input type="text" name="email"/><input type="submit" value="OK"/>
			</form>';
	}
?>

Omówmy sobie poszczególne partie tego wyrażenia:

/^[a-zA-Z\.\-\_]+ - początek adresu składa się z dowolnych znaków alfanumerycznych, pauzy, kropki oraz podkreślenia i jego długość musi wynosić minimum 1 znak.
\@ - później ma być małpa
[a-zA-Z0-9\.\-\_]+ - analogicznej klasy używamy do zdefiniowania domeny.
\.[a-z]{2,4}$/ - domena musi kończyć się kropką, po której spodziewamy się domeny nadrzędnej (np. .pl, .com).

W pełni poprawne wyrażenie sprawdzające poprawność adresu jest znacznie bardziej skomplikowane. Zainteresowanych odsyłamy do odpowiedniego dokumentu RFC definiującego je. PCRE posiada kilka klas predefiniowanych:

. - kropka symbolizuje dowolny znak (za wyjątkiem przełamania linii).
\d - dowolna cyfra dziesiętna
\D - dowolny znak niebędący cyfrą
\s - biały znak (np. spacja, tabulator)

Predefiniowane klasy można ze sobą łączyć wewnątrz nawiasów kwadratowych: [\d\s] - dozwolone cyfry dziesiętne oraz białe znaki. Jeżeli po otwierającym nawiasie kwadratowym pojawi się symbol ^, będzie to oznaczać negację klasy: "wszystkie znaki, które NIE należą do wymienionych". Jak zdefiniowałbyś "dowolny znak niebędący cyfrą", czyli klasę \D w tradycyjny sposób?

Grupy

Poszczególne fragmenty ciągu mogą być ze sobą łączone w większe grupy, ujmowane w okrągłych nawiasach. Są one wykorzystywane w dwóch celach. Po pierwsze, można do nich zbiorczo zastosować kwantyfikator, żądając, aby np. jakiś fragment powtarzał się od 3 do 5 razy. Za pomocą grup eksportujemy także do PHP interesujące nas dane. Przykładowo, do wyrażenia /^(abc)+$/ pasują ciągi "abc", "abcabc", "abcabcabc" itd.

Przedstawimy teraz, jak wykorzystać wyrażenia regularne w innych dziedzinach, niż tylko kontrola formularzy. Załóżmy, że zlecono nam zadanie przeprojektowania bazy danych, ponieważ stara nie spełnia stawianych jej wymagań. Oczywiście musimy napisać jakiś konwerter, który przeniesie automatycznie dane do nowej bazy. Natknęliśmy się jednak na problem: daty utworzenia rekordów zapisywane są w postaci tekstowej, np. "12 Dec 2006, 16:34", zamiast w łatwych do przetwarzania sekundach od 1.1970. Do rozbicia ciągu na poszczególne fragmenty wykorzystamy wyrażenia regularne:

<?php
	$date = '12 Dec 2006, 16:34';

	if(preg_match('/^(\d{1,2}) (Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec) (\d{4})\, (\d{1,2})\:(\d{1,2})/', $date, $found))
	{
		// Co nam zwrocilo...
		echo '<h3>Dane: "'.$date.'"</h3>';
		echo '<p>Dzien: '.$found[1].'</p>';
		echo '<p>Miesiac: '.$found[2].'</p>';
		echo '<p>Rok: '.$found[3].'</p>';
		echo '<p>Godzina: '.$found[4].'</p>';
		echo '<p>Minuta: '.$found[5].'</p>';

		$monthConverter = array('Jan' => 1, 'Feb' => 2, 'Mar' => 3, 'Apr' => 4, 'May' => 5,
			'Jun' => 6, 'Jul' => 7, 'Aug' => 8, 'Sep' => 9, 'Oct' => 10, 'Nov' => 11, 'Dec' => 12);

		echo '<p>Unix timestamp: '.mktime($found[4], $found[5], 0, $monthConverter[$found[2]], $found[1], $found[3]).'</p>';
	}
	else
	{
		echo '<p>Nieprawidłowy format daty!</p>';
	}
?>

W zastosowanym wyrażeniu regularnym pojawia się symbol | - jest to operator wyboru. Ciąg Jan|Feb|Mar oznacza, że w tym miejscu chcemy mieć "Jan" ALBO "Feb" ALBO "Mar". Zauważ, że wszystkie istotne elementy daty zawarliśmy w grupach, a do samej funkcji preg_match() podaliśmy trzeci parametr. Do podanej tam zmiennej zostanie przypisana tablica z treścią pasującego ciągu na indeksie 0 oraz wartościami wszystkich użytych grup na kolejnych indeksach. Teraz możemy już łatwo przekonwertować funkcją mktime() naszą datę na format uniksowy.

Na podstawie kursu PHP na Wikibooks, licencja GNU Free Documentation License

RkBlog

Podstawy PHP, 14 July 2008

Comment article

PHPCon PL 2015 w tym roku w listopadzie w Rawie Mazowieckiej

Z PHP nie mam już prawie w ogóle do czynienia, ale programistom PHP mogę polecić konferencję PHPCon PL, która w tym roku odbędzie się w Rawie Mazowieckiej od 13 do 15 listopada. Więcej szczegółów na stronie phpcon.

› Read more

PHPCon Poland 2014 - prelengenci poszukiwani

Jeszcze do końca maja można zgłaszać propozycje prelekcji na tegoroczny, piąty już PHPCon Poland - największą konferencję w Europie Środkowej poświęconą w całości językowi PHP. Jeśli pracujesz w PHP i czujesz się na siłach, by zaprezentować jakieś ciekawe zagadnienie dotyczące tego języka, podziel się swoją wiedzą z innymi i zgłoś propozycję na phpcon.pl. Jako zakwalifikowany prelegent, będziesz miał prawo do zwrotu całości opłaty za uczestnictwo.

› Read more

Pełnotekstowe wyszukiwanie w SQLite i PHP5

Opis zastosowania modułu SQLite FTS3 do pełnotekstowego wyszukiwania rekordów

› Read more

PHP 5.3.0 wydane

Wydano pierwszą stabilną wersję PHP 5.3. Nowa wersja wnosi sporo zmian do języka. Dodano funkcje lambda, przestrzenie nazw, kontrowersyjne goto, nowe rozszerzenia (ext/phar, ext/intl, ext/fileinfo, ext/sqlite3, ext/enchant), oraz wiele poprawek.

› Read more

Dlaczego PHP nie kształci dobrych programistów?

Na forum php.pl znalazłem bardzo ciekawy link prowadzący na listę dostępnych funkcji PHP na serwerach WP. Jak widać oferta jest... śmieszna? - po pierwsze mamy przestarzałe i niewspierane już PHP4, po drugie wystarczy popatrzeć jakie funkcje zostały wyłączone by paść ze śmiechu. Niestety masowy hosting o praktycznie zerowych możliwościach - darmowy, czy też płatny nie jest czymś odosobnionym. Nic dziwnego że "dzieci" chcące zrobić "stronkę w PHP" trafiają na takie "usługi" i zamiast uczyć czegoś związanego z umiejętnością programowania w PHP uczą się kopiowania ograniczonych skrypcików działających na takich "serwerach". Nie umieją korzystać z baz danych, czy też stosować poprawnych struktur kodu, frameworków. Spędzając dłuższy czas w takim sosie błędne nawyki zaczynają się utrwalać, a przekonani o swojej genialności script kiddies dołują całą platformę PHP.

Rozwiązanie nie jest łatwe i wymagałoby radykalnych działań twórców PHP - wymuszenie bezwzględnego używania nowszych wersji PHP (zmiana licencji?), ograniczenie możliwości wyłączania części funkcjonalności języka (czy to z chęci zysku, czy z głupoty pseudoadmina), a także łatwiejsze rozwiązania do poszerzania funkcjonalności (skryptowe i binarne rozszerzenia) podobnie jak w Pythonie, czy Ruby.

Z PHP-Socjologicznego punktu widzenia bardzo ciekawe byłoby dodanie obsługi PHP w usługach typu Google App Engie. Interpreter byłby stosowanie dostosowany - brak operacji na pliczkach, brak safe mod, latania po katalogach itp. Darmowy fajny hosting, na którym nie działałyby istniejące skrypciki :) Co wtedy zrobiliby script kiddies? Paru zapewne będzie chciało "wrzucić" MySQLa razem z projektem, ale ci jeszcze całkowicie nie odmóżdżeni "w końcu" by się czegoś nauczyli - mając platformę, na której "lepszy" kod działa.

› Read more

Co nowego w PHP 5.3?

1 sierpnia wydano pierwszą wersję alfa PHP 5.3 - służącą jako przegląd nowych możliwości dla programistów i do wyłapywania błędów. PHP z serii 5.3 wprowadza sporo nowych funkcjonalności takich jak:

Przestrzenie nazw (namespaces) - czyli kontrolowanie zasięgu klas, metod, funkcji w obrębie kodu PHP umożliwiając np. stosowanie funkcji o takich samych nazwach w różnych obrębach aplikacji. (Dokumentacja)
Odwoływanie się do metod statycznych (Late Static Bindings) - możliwość odwoływania się m.in. do statycznych metod klasy poprzez static::nazwametody();. (Dokumentacja)
Nowa metoda magiczna __callStatic() - wykonywana przy próbie wywołania niedostępnej metody w statycznym kontekście. (Dokumentacja)
Funkcje Lambda i domykanie (Closure) - Funkcje lambda to proste jednolinijkowe funkcje, wykorzystywane w przypadkach, gdy np. potrzebujemy prostej funkcji w danym fragmencie aplikacji do wykonania prostej czynności. Zamiast definiować zwykłą funkcję, można skorzystać z funkcji lambda bezpośrednio w miejscu jej wykorzystania. Domknięcia (closures) poszerzają użyteczność funkcji lambda, a polegają na "zaszywaniem" zmiennych lokalnych w funkcjach (np. zmienne zwykłej funkcji dostępne w funkcji lambda stworzonej wewnątrz niej. (Dokumentacja)
Rozszerzenia Phar, intl i sqlite3 - Phar to odpowiednik na plik-kontenery JAR w Javie. Phar umożliwia budowanie pakietów z całych aplikacji w jednym pliku, co ma za zadanie ułatwienie dystrybuowania gotowych aplikacji. intl to rozszerzenie obsługujące internacjonalizację.
Natywny sterownik mysql - natywny dla PHP sterownik MySQLnd zastępuje libmysql
Brak wsparcia dla Windows 98, NT4, ME - PHP 5.3 nie będzie już obsługiwać starszych wersji MS Windows.

Więcej znajdziemy na blogu rooftopsolutions.nl, czy też na php.pl.

› Read more