ระยะทางจาโร-วิงเคลอร์

จากวิกิพีเดีย สารานุกรมเสรี

ระยะทางจาโร-วิงเคลอร์ (อังกฤษ: Jaro–Winkler distance) คือวิธีการแบบหนึ่งที่ใช้วัดความเหมือนกันระหว่างสองสายอักขระจากจำนวนตัวอักษรร่วม โดย วิลเลียมส วิงเคลอร์ (William Winkler) ได้นำวิธีการเปรียบเทียบสายอักขระแบบระยะทางจาโร ที่ แมททิว จาโร (Matthew Jaro) ได้นำเสนอขึ้น มาปรับปรุงเพิ่มเติม จึงเรียกว่าระยะทางจาโร-วิงเคลอร์ โดยค่าที่ได้จากวิธีวัดแบบระยะทางจาโร-วิงเคลอร์ จะมีค่าตั้งแต่ 0 (สายอักขระทั้งสองไม่มีตัวใดตรงกันเลย) ถึง 1 (สายอักขระทั้งสองตรงกันทุกตัว)

ระยะทางจาโร-วิงเคลอร์ ถูกออกแบบมาเพื่อใช้กับชุดของสายอักขระสั้นๆ เช่นชื่อคน โดยถูกพัฒนาเพื่อใช้เปรียบเทียบชื่อ ในการสำรวจสำมะโนประชากรของประเทศสหรัฐอเมริกา โดยระยะทางจาโรจะใช้หลักการวัดความต่างกัน ของสายอักขระจากจำนวนตัวอักษรที่เหมือนกัน และอยู่ในตำแหน่งใกล้เคียงกัน คือตำแหน่งห่างกันไม่เกินครึ่งหนึ่งของความยาวอักขระสายที่สั้น จากผลวิจัยของวิงเคลอร์พบว่า ความคลาดเคลื่อนโดยบังเอิญ มักเกิดกับตัวอักษรที่อยู่ตอนปลายของสายอักขระหลังจากตัวอักษรที่สี่เป็นต้นไป และพบว่าหากสายอักขระยิ่งยาวขึ้น ความคลาดเคลื่อนจะมากตามไปด้วย ระยะทางจาโร-วิงเคลอร์จึงนำค่าที่ได้จากระยะทางจาโร มาให้น้ำหนักความต่างกันของสายอักขระเพิ่ม โดยพิจารณาจากตำแหน่งของตัวอักษรและความยาวของสายอักขระ

นิยาม[แก้]

ให้ d_j คือระยะทางจาโร ของสายอักขระสองสาย จะได้

d_j = \frac{1}{3}\left(\frac{c}{m} + \frac{c}{n} + \frac{c-t}{m}\right)
  • m คือความยาวของสายอักขระสายแรก
  • n คือความยาวของสายอักขระสายที่สอง
  • c คือจำนวนคู่ของตัวอักษรที่ตรงกัน
  • t คือจำนวนเต็มครึ่งหนึ่ง ของคู่อักษรที่ตรงกันที่ต้องเปลี่ยนลำดับ

หากสายอักขระสองสาย มีตัวอักษรที่เหมือนกันแต่ตำแหน่งไม่ตรงกัน จะถือว่าอักษรนั้นตรงกัน ถ้าระยะห่างระหว่างอักษรที่เหมือนกันของอักขระสองสาย มีค่าไม่เกิน r โดยที่ r = \left\lfloor\frac{\max(m,n)}{2}\right\rfloor-1

ตัวอย่างเช่น การเทียบ CRATE กับ TRACE ระยะห่างระหว่างตัวอักษรสูงสุดที่ยังถือว่าตรงกันคือ (5/2)-1 = 1.5 จะเห็นว่ามีเพียงตัวอักษร ‘R’ ‘A’ ‘E’ เท่านั้นที่อักษรตรงกัน ถึงแม้ว่า ‘C’ และ ‘T’ จะปรากฏที่สายอักขระทั้งสอง แต่ระยะห่างของ ‘C’ ระหว่างสายอักขระสองสายมีค่าเกิน 1 (สายอักขระแรก C อยู่ตำแหน่งที่ 1 สายอักขระที่สอง C อยู่ที่ตำแหน่งที่ 4 ดังนั้นห่างกัน 4 – 1 = 3 ซึ่งเกิน r) จึงไม่ถือว่าตรงกัน สำหรับอักษร ‘T’ ก็เช่นเดียวกัน ดังนั้น c จึงมีค่าเท่ากับ 3 และ t = 0 (จำนวนอักษรที่ตรงกันคือ 3 ซึ่งอักษรที่ตรงกันทั้งสามนี้ ไม่มีการสลับตำแหน่งกัน) กรณี DwAyNE เทียบกับ DuANE จะเห็นว่าคู่ของอักษรที่ตรงกันมีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายคือ D-A-N-E ดังนั้นจึงไม่มีตำแหน่งที่ต้องต้องเปลี่ยนลำดับ t จึงเท่ากับ 0

ให้ d_w คือระยะทางจาโร-วิงเคลอร์

d_w = d_j + (\frac{\ell}{10} (1 - d_j))
  • d_j คือระยะทางจาโร สำหรับสายอักขระสองสาย
  • \ell คือความยาวของอักขระด้านหน้าที่ตรงกัน เริ่มจากตำแหน่งแรกจนถึงตำแหน่งสุดท้ายที่ตรงกัน โดยค่าที่ได้จะต้องไม่เกิน 4


ตัวอย่าง[แก้]

ให้ m แทนความยาวของสายอักขระ MARTHA และ n แทนความยาวของสายอักขระ MARHTA จะได้

  • c = 6
  • m = 6
  • n = 6
  • คู่ของตัวอักษรที่ตรงกัน (M, A, R, T, H, A) (M, A, R, H, T, A)

อักษรที่ตรงกัน 6 ตัว มีอักษรสองตัวที่ไม่ได้เรียงกันตามลำดับ คืออักษรตำแหน่งที่ 4 และ 5 ดังนั้น t = \frac{2}{2} = 1

จะได้ค่าระยะทางจาโร

d_j = \frac{1}{3}\left(\frac{6}{6} + \frac{6}{6} + \frac{6-1}{6}\right) = 0.944

มี 3 อักขระแรกที่เข้ากันคือ (M, A, R) ดังนั้น \ell = 3

จะได้ค่าระยะทางจาโร-วิงเคลอร์

d_w = 0.944 + (\frac{3}{10} (1 - 0.944)) = 0.961


ให้ m แทนความยาวของสายอักขระ JONES และ n แทนความยาวของสายอักขระ JOHNSON จะได้

  • c = 4
  • m = 5
  • n = 7
  • คู่ของตัวอักษรที่ตรงกัน (J, O, N, S) (J, O, N, S)

อักษรที่ตรงกันทั้ง 4 ตัว มีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายอักขระ ดังนั้น t = 0

จะได้ค่าระยะทางจาโร

d_j = \frac{1}{3}\left(\frac{4}{5} + \frac{4}{6} + \frac{4-0}{4}\right) = 0.790

มี 2 อักขระแรกที่เข้ากันคือ (J, O) ดังนั้น \ell = 2

จะได้ค่าระยะทางจาโร-วิงเคลอร์

d_w = 0.790 + (\frac{2}{10} (1 - 0.790)) = 0.832


ให้ m แทนความยาวของสายอักขระ DWAYNE และ n แทนความยาวของสายอักขระ DUANE จะได้

  • c = 4
  • m = 6
  • n = 5
  • คู่ของตัวอักษรที่ตรงกัน (D, A, N, E) (D, A, N, E)

อักษรที่ตรงกันทั้ง 4 ตัว มีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายอักขระ ดังนั้น t = 0

จะได้ค่าระยะทางจาโร

d_j = \frac{1}{3}\left(\frac{4}{6} + \frac{4}{5} + \frac{4-0}{4}\right) = 0.822

มีเพียงอักขระแรกที่เข้ากัน คือ (D) ดังนั้น \ell = 1

จะได้ค่าระยะทางจาโร-วิงเคลอร์

d_w = 0.822 + (\frac{1}{10} (1 - 0.822)) = 0.84


ให้ m แทนความยาวของสายอักขระ DIXON และ n แทนความยาวของสายอักขระ DICKSONX จะได้

  • r = \left\lfloor\frac{8}{2}\right\rfloor-1 = 3
  • c = 4
  • m = 5
  • n = 8
  • คู่ของตัวอักษรที่ตรงกัน (D, I, O, N) (D, I, O, N)

อักษรที่ตรงกันทั้ง 4 ตัว มีตำแหน่งเรียงกันตามลำดับเหมือนกันทั้งสองสายอักขระ ดังนั้น t = 0 สำหรับอักษร X ในสายอักขระไม่นำมาพิจาณา เนื่องจากระยะห่างของ X ระหว่างสายอักขระสองสายมีค่าเกิน r

จะได้ค่าระยะทางจาโร

d_j = \frac{1}{3}\left(\frac{4}{5} + \frac{4}{8} + \frac{4-0}{4}\right) = 0.767

มี 2 อักขระแรกที่เข้ากันคือ (D, I) ดังนั้น \ell = 2

จะได้ค่าระยะทางจาโร-วิงเคลอร์

d_w = 0.767 + (\frac{2}{10} (1 - 0.767)) = 0.813

ดูเพิ่ม[แก้]

อ้างอิง[แก้]

แหล่งข้อมูลอื่น[แก้]