แถวลำดับแอลซีพี
longest common prefix array (LCP array) ถูกนำมาใช้ในปี 1993. โดย Udi Manber และ Gene Myers เพื่อปรับปรุง suffix array การทำงานของวิธีการค้นหาสตริงของพวกเขา โดยวิธีการคือ สมมุติให้มี อาร์เรย์ A: = [aab, ab, abaab, b, baab] เป็น suffix array อักษรที่ยาวที่สุดระหว่าง A [1] = aab และ A [2] = ab เป็นที่มีความยาว 1 ดังนั้น H [2] = 1 ทำนองเดียวกันใน LCP array ของ A [2] = ab และ A [3] = abaab เป็น ab ดังนั้น H [3] = 2
ตัวอย่าง LCP array
สมมุติให้มีว่าข้อความ S = banana ให้เราเรียงตามลำดับindex
i | 0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|---|
S[i] | b | a | n | a | n | a |
นำข้อความมาทำเป็นอักษรย่อยแล้วเรียงตามindex
suffix | i |
---|---|
banana | 0 |
anana | 1 |
nana | 2 |
ana | 3 |
na | 4 |
a | 5 |
เรียงตามลำดับ suffix array ของอักษรย่อย S
suffix | i |
---|---|
a | 5 |
ana | 3 |
anana | 1 |
banana | 0 |
na | 4 |
nana | 2 |
จากนั้นให้เราหาจำนวนอักษรที่ยาวที่สุดของ suffix arrayตามลำดับจะได้ LCP array
i | suffix | LCP array |
---|---|---|
5 | a | 0 |
3 | ana | 1 |
1 | anana | 3 |
0 | banana | 0 |
4 | na | 0 |
2 | nana | 2 |
เราจะได้ LCP array ของ S = [0, 1, 3, 0, 0, 2]
การนำ LCP array ไปใช้งานในภาษาPython
ตัวอย่างภาษาไพทอน
def suffix_array(s):
return [rank for suffix, rank in sorted((s[i:], i) for i in range(len(s)))]
def lcp_array(s):
sa = suffix_array(s)
n = len(s)
k = 0
lcp = [0] * n
rank = [0] * n
for i in range(n):
rank[sa[i]] = i
for i in range(n):
if rank[i] == n-1:
k = 0
continue
j = sa[rank[i] + 1]
while i + k < n and j + k < n and s[i + k] == s[j + k]:
k += 1
lcp[rank[i]+1] = k;
if k:
k -= 1
return lcp
อ้างอิง
LCP array from Suffix Array เก็บถาวร 2017-11-20 ที่ เวย์แบ็กแมชชีน on geeksforgeeks