Biểu thức chính quy

Biểu thức chính quy (tiếng Anh: regular expression, viết tắt là regexp, regex hay regxp) là một xâu miêu tả một bộ các xâu khác, theo những quy tắc cú pháp nhất định. Biểu thức chính quy thường được dùng trong các trình biên tập văn bản và các tiện ích tìm kiếm và xử lý văn bản dựa trên các mẫu được quy định. Nhiều ngôn ngữ lập trình cũng hỗ trợ biểu thức chính quy trong việc xử lý xâu, chẳng hạn như Perl có bộ máy mạnh mẽ để xử lý biểu thức chính quy được xây dựng trực tiếp trong cú pháp của chúng. Bộ các trình tiện ích (gồm trình biên tập sed và trình lọc grep) đi kèm các bản phân phối Unix có vai trò đầu tiên trong việc phổ biến khái niệm biểu thức chính quy.

Các khái niệm cơ bản

Biểu thức chính quy, thường được gọi là mẫu, là biểu thức được sử dụng để chỉ định một xâu các xâu cần thiết cho một mục đích cụ thể. Một cách đơn giản để xác định một bộ xâu hữu hạn là liệt kê các thành phần hoặc thành viên của nó. Tuy nhiên, thường có nhiều cách ngắn gọn hơn để chỉ định bộ xâu mong muốn.

Ví dụ: tập hợp chứa ba xâu "Handel", "Händel" và "Haendel" có thể được chỉ định bởi mẫu H(ä|ae?)ndel; chúng tôi nói rằng mô hình này phù hợp với từng trong ba xâu. Trong hầu hết các xâu, nếu tồn tại ít nhất một biểu thức chính quy khớp với một tập hợp cụ thể thì sẽ tồn tại vô số các biểu thức chính quy khác cũng khớp với nó. Biểu thức chính quy không phải là duy nhất. Hầu hết các hình thức cung cấp các hoạt động sau đây để xây dựng các biểu thức thông thường.

Hoặc "or"
Một thanh dọc ngăn cách các lựa chọn thay thế. Ví dụ: gray|grey có thể khớp với "gray" hoặc "grey".
Phân nhóm
Dấu ngoặc đơn được sử dụng để xác định phạm vi và mức độ ưu tiên của các toán tử (trong số các cách sử dụng khác). Ví dụ: gray|grey và gr(a|e)y là các mẫu tương đương, cả hai đều mô tả tập hợp "gray" or "grey".
Định lượng
Bộ định lượng sau mã thông báo (chẳng hạn như ký tự) hoặc nhóm chỉ định tần suất mà phần tử trước được phép xảy ra. Các định lượng phổ biến nhất là dấu hỏi?, Dấu hoa thị * và dấu cộng +.
? Dấu hỏi chỉ ra không hoặc một lần xuất hiện của phần tử trước. Ví dụ: colou?r khớp với cả "color" and "colour".
* Dấu hoa thị cho biết không có hoặc nhiều lần xuất hiện của phần tử trước. Ví dụ: ab * c khớp với "ac", "abc", "abbc", "abbbc", v.v.
+ Dấu cộng cho biết một hoặc nhiều lần xuất hiện của phần tử trước. Ví dụ: ab + c khớp với "abc", "abbc", "abbbc", v.v., nhưng không phải là "ac".
{n}[1] Mục trước được khớp chính xác n lần.
{min,}[1] Mục trước được khớp tối thiểu hoặc nhiều lần hơn.
{min,max}[1] Mục trước được khớp ít nhất lần tối thiểu, nhưng không quá lần tối đa.
Ký tự đại diện

Các ký tự đại diện . phù hợp với bất kỳ ký tự. Ví dụ: a.b khớp với bất kỳ xâu nào chứa "a", sau đó là bất kỳ ký tự nào khác và sau đó là "b", a.*b khớp với bất kỳ xâu nào có chứa "a" và "b" ở một điểm nào sau đó.

Các cấu trúc này có thể được kết hợp để tạo thành các biểu thức phức tạp tùy ý, giống như người ta có thể xây dựng các biểu thức tính toán từ các số và các phép toán +, -, × và:. Ví dụ, H(ae?|ä)ndelH(a|ae|ä)ndel đều là các mẫu hợp lệ khớp với các xâu giống như ví dụ trước đó, H(ä|ae?)ndel.

Cú pháp chính xác cho các biểu thức chính quy khác nhau giữa các công cụ và ngữ cảnh; chi tiết hơn được đưa ra trong phần Cú pháp.

Tham khảo

Liên kết ngoài

Xem trước chú thích

  1. ^ a b c grep(1) man page