New York State Identification and Intelligence System

จากวิกิพีเดีย สารานุกรมเสรี
บทความนี้มีชื่อเป็นภาษาอังกฤษ เนื่องจากยังไม่มีชื่อภาษาไทยที่กระชับ เหมาะสม หรือไม่รู้วิธีอ่านในภาษาไทย

รหัสสัทลักษณ์ของ New York State Identification and Intelligence System หรือเรียกย่อว่า NYSIIS เป็นขั้นตอนวิธีเชิงสัทลักษณ์คิดค้นขึ้นในปี ค.ศ. 1970 (ปัจจุบันระบบเป็นส่วนหนึ่งของ New York State Division of Criminal Justice Services) มีความแม่นยำมากกว่าขั้นตอนวิธีซาวเดกซ์แบบดั้งเดิม 2.7% [1] เป็นการจับคู่หน่วยเสียง (phoneme) ที่คล้ายกันให้เข้ากับอักษรตัวเดียวกัน ให้ผลลัพธ์เป็นสายอักขระซึ่งสามารถอ่านได้โดยไม่ต้องถอดรหัส ขั้นตอนวิธีนี้อธิบายเทคนิคการค้นหาชื่อ มีอยู่ด้วยกัน 2 แบบ คือแบบดั้งเดิม และแบบดัดแปลง (แบบดัดแปลงไม่ใช่ของทางการ)

ขั้นตอนวิธีแบบดั้งเดิม ตามที่ระบุในหนังสือ Name Search Techniques มีวิธีการดังนี้ [2][แก้]

  1. เปลี่ยนตัวอักษรเริ่มแรกของชื่อโดยที่ MAC → MCC, KN → N, K → C, PH, PF → FF, SCH → SSS
  2. เปลี่ยนตัวอักษรหลังสุดของชื่อโดยที่ EE → Y, IE → Y, DT, RT, RD, NT, ND → D
  3. คำสำคัญตัวแรกก็คือตัวอักษรแรกของชื่อ
  4. เปลี่ยนตัวอักษรที่เหลือโดยทำตามกฎดังนี้ โดยนับตัวอักษรเพิ่มทีละตัว
    1. EV → AF นอกนั้น A, E, I, O, U → A
    2. Q → G, Z → S, M → N
    3. KN → N นอกนั้น K → C
    4. SCH → SSS, PH → FF
    5. H → ถ้าตัวก่อนหน้าหรือหลังจากตัวอักษรนี้ไม่ใช่สระ ก็ให้ใช้ตัวก่อนหน้านี้
    6. W → ถ้าตัวก่อนหน้านี้เป็นสระ ก็ให้ใช้ A
    7. เติมตัวอักษรปัจจุบันลงในคำสำคัญถ้าตัวอักษรปัจจุบันไม่เท่ากับ ตัวอักษรตัวสุดท้ายของคำสำคัญ
  5. ถ้าตัวอักษรตัวสุดท้ายเป็น S ให้ตัดทิ้ง
  6. ถ้าตัวอักษรตัวสุดท้ายเป็น AY ให้เปลี่ยนเป็น Y
  7. ถ้าตัวอักษรตัวสุดท้ายเป็น A ให้ตัดทิ้ง
  8. ยุบตัวอักษรทุกตัวของตัวอักษรที่ซ้ำกัน
  9. เติมตัวอักษรตัวแรกของชื่อ โดยใช้ตัวอักษรตัวแรกของคำสำคัญ

ขั้นตอนวิธีแบบดัดแปลง[แก้]

  1. ถ้าตัวอักษรตัวแรกของชื่อเป็นสระ จำสระนั้นไว้ก่อน
  2. เอาตัวอักษร S และ Z จากตัวสุดท้ายของชื่อออก
  3. เปลี่ยนตัวอักษรตัวแรกของชื่อดังนี้ MAC → MC, PF → F
  4. เปลี่ยนตัวอักษรที่เหลือในชื่อดังนี้ IX → IC, EX → EC, YE, EE, IE → Y, DT, RT, RD, NT, ND → D
  5. เปลี่ยน EV → EF ถ้าไม่ได้ขึ้นต้นของชื่อ
  6. คำสำคัญตัวแรกก็คือตัวอักษรแรกของชื่อ
  7. ตัด W ออกถ้า W ตามหลังสระ
  8. แทนสระทุกตัวด้วย A
  9. เปลี่ยน GHT → GT
  10. เปลี่ยน DG → G
  11. เปลี่ยน PH → F
  12. ถ้า H ไม่ใช่ตัวอักษรตัวแรก ให้ตัดออกหมด
  13. เปลี่ยน KN → N ถ้าไม่ใช่ก็ K → C
  14. ถ้า M ไม่ใช่ตัวอักษรตัวแรก ให้เปลี่ยนเป็น N
  15. ถ้า Q ไม่ใช่ตัวอักษรตัวแรก ให้เปลี่ยนเป็น G
  16. เปลี่ยน SH → S
  17. เปลี่ยน SCH → S
  18. เปลี่ยน YW → Y
  19. ถ้า Y ไม่ใช่ตัวอักษรตัวแรกหรือตัวสุดท้าย ให้เปลี่ยนเป็น A
  20. เปลี่ยน WR → R
  21. ถ้า Z ไม่ใช่ตัวอักษรตัวแรก ให้เปลี่ยนเป็น S
  22. เปลี่ยน AY → Y
  23. เอาสระที่ติดกันยาวๆออก
  24. ยุบตัวอักษรทุกตัวของตัวอักษรที่ซ้ำกัน
  25. ถ้าตัวอักษรข้างหน้าเป็นสระ นำตัวอักษรที่จำไว้ใส่แทน

อ้างอิง[แก้]

  1. Rajkovic, P.; Jankovic, D. (2007), "Adaptation and Application of Daitch-Mokotoff Soundex Algorithm on Serbian Names", XVII Conference on Applied Mathematics, Novi Sad, Serbia 
  2. Taft, R. L. (1970), "Name Search Techniques", Albany, New York: New York State Identification and Intelligence System