พูดคุย:การรู้จำอักขระด้วยแสง

ไม่รองรับเนื้อหาของหน้าในภาษาอื่น
จากวิกิพีเดีย สารานุกรมเสรี
การรู้จำอักขระด้วยแสง เป็นส่วนหนึ่งของ โครงการวิกิไอที โดยพยายามที่จะปรับปรุงคุณภาพ รวบรวมเรื่องราวเนื้อหาสาระ ครอบคลุมเกี่ยวกับ เทคโนโลยีสารสนเทศ คอมพิวเตอร์ อินเทอร์เน็ต เน็ตเวิร์ก ซอฟต์แวร์
ถ้าต้องการมีส่วนร่วมในโครงการ สามารถดูวิธีการที่หน้าโครงการวิกิไอที และสถานีย่อยเทคโนโลยีสารสนเทศ
 โครง  บทความนี้อยู่ที่ระดับโครง ตามการจัดระดับการเขียนบทความ

ส่วนที่นำออกจากบทความ - ต้องการตรวจลิขสิทธิ์[แก้]

ประวัติ[แก้]

หลักการทำงานเครื่องเรทินาสแกนของ George Carey [1]

ระบบโอซีอาร์ไม่ใช่เรื่องใหม่สำหรับกระบวนการประมวลผลข้อมูล เนื่องจากความพยายามที่จะพัฒนาเครื่องช่วยอ่านตัวอักษรอัตโนมัติเพื่อช่วยงานมนุษย์นั้น มีการคิดค้นกันมากกว่าร้อยปีแล้ว ถ้าหากจะกล่าวถึงประวัติของโอซีอาร์ ก็น่าจะเริ่มต้นกันที่คำว่า optical ซึ่งบอกถึงหลักการทำงานของระบบที่เกี่ยวข้องกับการประมวลผลของภาพอิเล็กทรอนิกส์ที่ได้มาจากเครื่องสแกน ซึ่งมีจุดเริ่มต้นในปี พ.ศ. 2416 โดยพนักงานโทรเลขชาวไอแลนด์ชื่อ Joseph May ได้ค้นพบคุณสมบัติทางโฟโตอิเล็กทริค (photoelectric) จากซีลีเนียม (selenium) โดยบังเอิญ จากนั้นในปี พ.ศ. 2418 ในสหรัฐอเมริกา George Carey ได้นำเสนอเครื่องสแกนเรทินา (retina scanner) ที่สามารถถ่ายทอดสัญญาณภาพจากแผงโฟโตอิเล็กทริคเซลที่รับแสงสะท้อนจากภาพแล้วแสดงผลที่แผงอีกด้านหนึ่ง

และต่อมาในปี พ.ศ. 2427 Paul Nipkow ชาวเยอรมันได้คิดค้นเครื่องสแกนภาพแบบใหม่ที่ใช้จานหมุนที่มีรูเล็กๆ เรียงกันในลักษณะเป็นก้นหอยเรียกว่านิพโกว์ดิสก์ (Nipkow disk) ในการอ่านภาพ ซึ่งถือเป็นประดิษฐ์กรรมต้นแบบของเครื่องสแกนรวมทั้งเทคโนโลยีการถ่ายทอดภาพของวงการโทรทัศน์ในปัจจุบันอีกด้วย

เครื่องอ่านตัวอักษรเครื่องแรกที่มีการรายงานไว้เป็นเครื่องที่ทำขึ้นเพื่อช่วยคนพิการทางตาในการอ่านหนังสือซึ่งเป็นผลงานของนักวิทยาศาสตร์ชาวรัสเซียชื่อ Tyurin สร้างขึ้นในปี พ.ศ. 2443 จากนั้นในปี พ.ศ. 2472 G. Tausheck ได้จดสิทธิบัตรระบบโอซีอาร์เป็นครั้งแรกในประเทศเยอรมนี และต่อมาปี พ.ศ. 2476 ในอเมริกา P.W. Handel ก็ได้จดสิทธิบัตรโอซีอาร์ของตนเองเช่นกัน ถึงแม้เริ่มแรกระบบโอซีอาร์ดังกล่าวจะมีลักษณะและความสามารถที่เทียบไม่ได้กับระบบโอซีอาร์ที่เราใช้กันอยู่ในปัจจุบัน แต่แนวความคิดพื้นฐานของระบบดังกล่าวก็ยังคงใช้กันอยู่จนกระทั่งถึงทุกวันนี้

ความแตกต่างของระบบโอซีอาร์ในยุคแรกๆ ที่เห็นได้ชัดคือ ลักษณะที่เป็นชุดอุปกรณ์ฮาร์ดแวร์ที่พ่วงติดกับเครื่องสแกน แทนที่จะเป็นชุดซอฟต์แวร์ที่ใช้กับเครื่องคอมพิวเตอร์แบบตั้งโต๊ะ (การกล่าวถึงชุดอุปกรณ์ฮาร์ดแวร์โอซีอาร์ผู้เขียนขอใช้คำว่า “ระบบโอซีอาร์” แทนที่จะเป็น “โปรแกรมโอซีอาร์“ ซึ่งจะหมายถึงชุดซอฟต์แวร์โอซีอาร์ที่ใช้กับเครื่องคอมพิวเตอร์ ทั้งนี้เพื่อความชัดเจนในการใช้คำ) โดยโอซีอาร์ยุคแรกๆ จะมีลักษณะออกไปทางเครื่องจักรกล ซึ่งต่อมาได้รับการพัฒนาเป็นเครื่องอิเล็กทรอนิกส์แบบอนาล็อก แล้วจึงมาเป็นระบบดิจิทัลอย่างเช่นในปัจจุบัน ทุกวันนี้ชุดอุปกรณ์ฮาร์ดแวร์โอซีอาร์เช่นนี้ก็ยังคงมีการผลิตอยู่และมีราคาสูงมาก เพื่อใช้ในการแปลงเอกสารหรือแบบฟอร์มเฉพาะด้านที่มีปริมาณมากๆ เครื่องพวกนี้จะมีประสิทธิภาพการทำงานสูง ตัวอย่างการใช้งานโอซีอาร์แบบนี้ ได้แก่ ระบบอ่านรหัสไปรษณีย์เพื่อแยกจดหมายอัตโนมัติ และระบบสำหรับอ่านหมายเลขเช็ค เป็นต้น

การวิจัยและพัฒนาโอซีอาร์ได้ก้าวหน้าเป็นอย่างมากหลังจากที่ได้มีการประดิษฐ์คอมพิวเตอร์ขึ้นมาใช้ ศักยภาพเชิงการคำนวณและการทำงานแบบดิจิทัลมีผลต่อการออกแบบและพัฒนาโอซีอาร์ทั้งด้านฮาร์ดแวร์ และอัลกอริธึม ทำให้สามารถนำวิธีการใหม่ๆ ที่ดีกว่ามาใช้ ตัวอย่างโอซีอาร์รุ่นแรกๆ ที่นำเอาเทคนิคทางด้านดิจิทัลมาใช้ได้แก่ ERA (Electric Reading Automation) ของบริษัท Solatron Electronics Group Ltd. ซึ่งใช้ประโยชน์จากพื้นที่หน่วยความจำของคอมพิวเตอร์ที่มีลักษณะสองมิติมาช่วยในการทำงาน ซึ่งก่อนหน้านี้ทำได้ยาก โดยส่วนใหญ่มักจะต้องแปลงภาพตัวอักษรซึ่งเป็นรูปสองมิติให้เป็นข้อมูลแบบหนึ่งมิติก่อนการประมวลผล ส่วนตัวอักษรที่ ERA อ่านได้นั้น จะเป็นเฉพาะตัวเลขเท่านั้น อีกตัวอย่างหนึ่งของเครื่องแบบดิจิทัลคือระบบโอซีอาร์ของ Electrotechnical Laboratory (ETL) ของญี่ปุ่น โดยคอมพิวเตอร์ ETLMark IV กับเทคนิคที่คล้ายกับ ERA แต่สามารถอ่านได้ทั้งตัวเลขและตัวอักษรทั้งหมด 72 ตัวอักษร นอกจากนั้นยังมีโอซีอาร์ของบริษัท RCA ที่สามารถทำงานได้กับฟอนต์ภาษาอังกฤษและรัสเซีย โดย RCA ซึ่งเป็นผู้นำทางด้านหลอดอิเล็กตรอน (electron tube) ณ เวลานั้น ได้ใช้เทคโนโลยีด้านนี้ของตนร่วมกับเทคโนโลยีด้านอิเล็กทรอนิกส์ในการวิจัยโอซีอาร์ ซึ่งได้ผลเป็นที่น่าพอใจ แต่การวิจัยที่ว่านี้มิได้มีการสานต่อเพื่อผลิตเป็นผลิตภัณฑ์ออกสู่ตลาด

ประวัติโอซีอาร์เชิงพาณิชย์[แก้]

เนื่องจากความต้องการของตลาดที่มีต่อโอซีอาร์เพื่อใช้ในการนำเข้าข้อมูลนั้นเพิ่มสูงขึ้นเรื่อยๆ จึงมีการผลิตระบบโอซีอาร์เป็นสินค้าออกสู่ตลาดมาอย่างต่อเนื่องมากมายหลายรุ่น ซึ่งระบบต่างๆ เหล่านี้มีคุณสมบัติและความสามารถที่แตกต่างกัน ขึ้นอยู่กับประสิทธิภาพของฮาร์ดแวร์และความก้าวหน้าทางเทคโนโลยีในแต่ละยุคสมัย ซึ่งเราอาจจะแบ่งผลิตภัณฑ์โอซีอาร์ในเชิงพาณิชย์ได้เป็นยุคๆ ตามคุณสมบัติและความสามารถของระบบโอซีอาร์ในแต่ละช่วงเวลาโดยสามารถแบ่งได้เป็น 3 ยุคได้แก่

ยุคที่ 1[แก้]

ในช่วงปี พ.ศ. 2503 ถึง พ.ศ. 2508 (ต้นยุค ค.ศ. 1960) มีผลิตภัณฑ์โอซีอาร์เชิงพาณิชย์ออกสู่ตลาดมากพอสมควร โดยโอซีอาร์ในยุคนี้จะมีข้อจำกัดในเรื่องฟอนต์และจำนวนตัวอักษรที่ระบบสามารถอ่านได้ ซึ่งจะมีการกำหนดกลุ่มของฟอนต์ที่สามารถใช้กับระบบไว้ หรือไม่ก็สร้างฟอนต์ใหม่ขึ้นมาใช้โดยเฉพาะเลย และมักจะอ่านได้เฉพาะตัวเลขและอักษรเพียงไม่กี่ตัว ตัวอย่างของระบบโอซีอาร์ในกลุ่มนี้ ได้แก่ NCR 420 ซึ่งได้ออกแบบฟอนต์พิเศษชื่อ NOF ประกอบด้วยตัวเลขและสัญลักษณ์อีก 5 ตัว, Farrington 3010 เช่นเดียวกับ NCR ที่ต้องใช้กับฟอนต์พิเศษของตัวเอง และบริษัทคอมพิวเตอร์ยักษ์ใหญ่อย่าง IBM ก็เข้ามาร่วมวงด้วย เนื่องจากเห็นความสำคัญของโอซีอาร์โดยมี IBM 1418 เป็นโอซีอาร์รุ่นแรกของบริษัทที่ทำออกมาในเชิงพาณิชย์ ใช้งานกับฟอนต์ 407 ของ IBM เอง ซึ่งรูปร่างตัวอักษรของฟอนต์นี้จะมีความเป็นธรรมชาติกว่า 2 รุ่นที่กล่าวมาแล้ว และในช่วงปลายยุค พ.ศ. 2508 (ค.ศ. 1960) ในประเทศญี่ปุ่นบริษัทใหญ่ๆ หลายบริษัทได้เปิดตัวระบบโอซีอาร์ซึ่งเข้าอยู่ในกลุ่มยุคแรกเช่นกัน โดยประกอบด้วย Facom 6300A จาก Fujitsu, H-852 จาก Hitachi และ N240D-1 จาก NEC

ยุคที่ 2[แก้]

คุณลักษณะที่สำคัญของระบบโอซีอาร์ยุคนี้คือความสามารถในการรู้จำลายมือเขียน โดยในช่วงแรกๆ จะจำกัดไว้เฉพาะตัวเลขเท่านั้น ยุคนี้มีช่วงระยะเวลาอยู่ระหว่างกลางทศวรรษที่ 60 ถึงต้นทศวรรษที่ 70 ระบบโอซีอาร์ที่อยู่ในกลุ่มนี้ก็ได้แก่ IBM 1287 เป็นเครื่องที่รวมฮาร์ดแวร์แบบดิจิทัลกับอนาลอกไว้ด้วยกัน นอกจากลายมือเขียนแล้วโอซีอาร์ในยุคนี้ยังสามารถอ่านตัวอักษรที่พิมพ์มาจากเครื่องพิมพ์ปกติด้วย ซึ่งระบบที่จัดอยู่ในกลุ่มได้แก่ RETINA โดยตัวอักษรลายมือที่อ่านได้จะเป็นเฉพาะตัวเลขและตัวอักษร C, S, T, X, Z, +, - เท่านั้น ส่วนตัวอักษรจากเครื่องพิมพ์นั้นสามารถอ่านตัวอักษรพิมพ์ใหญ่ ตัวเลข และอักขระพิเศษอีกสี่ตัว รวมเป็น 44 ตัว นอกจากนั้นผู้ใช้ยังสามารถเลือกฟอนต์ที่จะอ่านได้ด้วย RETINA ถือเป็นโอซีอาร์ที่มีประสิทธิภาพมากระบบหนึ่งในขณะนั้น โดยสามารถอ่านตัวอักษรได้ 2,400 ตัวต่อวินาที

ยุคที่ 3[แก้]

ยุคนี้ให้ความสนใจกับเอกสารตัวพิมพ์ที่มีคุณภาพต่ำและตัวอักษรลายมือเขียนที่มีกลุ่มตัวอักษรหลากหลายมากขึ้น เช่น ตัวอักษรภาษาจีน เป็นต้น โดยที่โอซีอาร์เชิงพาณิชย์ของยุคนี้ออกสู่ท้องตลาดในช่วงประมาณ พ.ศ. 2518 ถึง พ.ศ. 2528 เราอาจจะแบ่งโอซีอาร์ยุคนี้ออกเป็นกลุ่มย่อยลงไปได้อีกดัง

  1. โอซีอาร์สำหรับเอกสารคุณภาพต่ำ เป็นโอซีอาร์ที่สามารถอ่านเอกสารซึ่งมีปัญหาเนื่องมาจากรอยเปื้อน (noise) และตัวอักษรที่ไม่ชัดเจน ตัวอย่างของโอซีอาร์ ในกลุ่มนี้ได้แก่ OCR-V100 ของ Toshiba และ IBM 1975
  2. ระบบอ่านเอกสารลายมือเขียน โดยเน้นที่เอกสารที่มีทั้งตัวเลขและตัวอักษรเพื่อใช้ในการแปลงข้อมูลที่ได้มาจากแบบฟอร์มต่างๆ
  3. ชุดซอฟต์แวร์ แทนที่จะพัฒนาระบบที่ประกอบด้วยอุปกรณ์ฮาร์ดแวร์เช่นแต่ก่อน โอซีอาร์สมัยใหม่เริ่มมีการผลิตเป็นซอฟต์แวร์สำหรับใช้กับเครื่องพีซี โดยอาจจะพ่วงมากับเครื่องสแกนแบบตั้งโต๊ะหรือมือถือ ซอฟต์แวร์เหล่านี้จะมีราคาที่ถูกลงตามลำดับ ซอฟต์แวร์โอซีอาร์ที่ค่อนข้างมีชื่อเสียง ได้แก่ Omnipage ของบริษัท Caere Corporation , WordScan ของ Calera และ Discover ของ Xerox Image System เป็นต้น

ประวัติการวิจัยและพัฒนาโอซีอาร์ภาษาไทย[แก้]

ในประเทศไทยได้มีการวิจัยและพัฒนาโอซีอาร์สำหรับภาษาไทยมานานประมาณ 10 ปีแล้ว เนื่องจากเทคโนโลยีโอซีอาร์มีความสำคัญต่อกระบวนการประมวลผลข้อมูลในระบบคอมพิวเตอร์เป็นอย่างมาก แต่ภาษาไทยมีลักษณะเฉพาะที่ต่างออกไปจากภาษาอื่นๆ ดังนั้นจึงมีความจำเป็นอย่างมากที่ประเทศไทยจะต้องพัฒนาเทคโนโลยีด้านนี้สำหรับภาษาไทยโดยเฉพาะ การวิจัยส่วนใหญ่เป็นการวิจัยภายในสถาบันการศึกษา และมักจะถูกเลือกเป็นหัวข้อวิทยานิพนธ์ของนักศึกษาทั้งระดับปริญญาโทและปริญาเอกอยู่เสมอ แต่สถาบันศึกษาที่ให้ความสนใจในการวิจัยอย่างจริงจังและต่อเนื่องนั้น มีอยู่จำนวนจำกัด ซึ่งได้แก่ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบังโดย ดร. ชม กิ้มปาน, สถาบันบัณฑิตพัฒนบริหารศาสตร์ โดย ดร. พิพัฒน์ หิรัญวนิชกร และ จุฬาลงกรณ์มหาวิทยาลัย โดย ดร. ชิดชนก เหลือสินทรัพย์ นอกจากสถาบันทางการศึกษาดังกล่าวแล้ว ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติซึ่งเป็นหน่วยงานทางการวิจัยภาครัฐก็เล็งเห็นความสำคัญของเทคโนโลยีโอซีอาร์ จึงได้ดำเนินโครงการวิจัยด้านนี้อย่างจริงจังภายใต้การดูแลของ ดร. ทวีศักดิ์ กออนันตกูล และ ดร. จุฬารัตน์ ตันประเสริฐ ซึ่งงานวิจัยนี้ได้รับผลสำเร็จและนำไปสู่การผลิตเป็นโปรแกรมโอซีอาร์ภาษาไทยเชิงพาณิชย์ชื่อ “อ่านไทย” ในเวลาต่อมา

การวิจัยโอซีอาร์ในประเทศไทยนั้นมีทั้งสำหรับแบบตัวพิมพ์และตัวเขียน สำหรับตัวเขียนก็มีการรู้จำทั้งแบบ ออนไลน์และออฟไลน์ ถึงแม้การวิจัยโอซีอาร์ภาษาอื่นๆ เช่น อังกฤษ และญี่ปุ่น เป็นต้น จะมีความก้าวหน้าและได้รับความสำเร็จในการนำมาใช้งานอย่างกว้างขวางแล้วก็ตาม แต่การประยุกต์ใช้เทคนิคจากภาษาอื่นมาใช้กับภาษาไทยโดยตรงนั้นไม่สามารถทำได้ จำเป็นต้องมีการคิดค้นวิธีการใหม่ที่เหมาะสมกับภาษาไทย อย่างไรก็ตามงานวิจัยโอซีอาร์สำหรับภาษาไทยก็ประสบความสำเร็จในระดับหนึ่ง และมีซอฟต์แวร์โอซีอาร์เชิงพาณิชย์ออกมาสู่ตลาดแล้วจำนวนหนึ่ง แต่ทั้งหมดยังเน้นหนักไปที่ตัวพิมพ์ และยังมีข้อจำกัดเรื่องฟอนต์ที่สามารถอ่านได้ โดยระดับความถูกต้องของ โอซีอาร์ภาษาไทยจะอยู่ในช่วง 90 – 99 % ซึ่งยังห่างจากความสามารถของโอซีอาร์ภาษาอังกฤษและภาษาอื่นๆ ที่มีระดับความถูกต้องสูงถึง 99.9 % ทั้งนี้ส่วนหนึ่งเนื่องมาจากลักษณะของตัวอักษรภาษาไทยที่มีตัวคล้ายกันแต่ทำหน้าที่แตกต่างกันอยู่หลายตัว รวมทั้งประโยคภาษาไทยที่ประกอบไปด้วยตัวอักษร 4 ระดับ เหล่านี้เป็นปัญหาที่ยากสำหรับการพัฒนาโอซีอาร์ภาษาไทยให้ได้ความถูกต้องที่ 99.9 %

เทคโนโลยีโอซีอาร์[แก้]

ผลิตภัณฑ์ OCR ที่มีใช้อยู่ในขณะนี้อาศัยเทคโนโลยีที่มีขั้นตอนการทำงานที่ยุ่งยากซับซ้อนมาก กว่าเอกสารที่สแกนเข้าไปจะถูกแปลงออกมาเป็นตัวอักษรอย่างที่ต้องการ (ซึ่งบางครั้งก็ได้อะไรที่ไม่ต้องการออกมาด้วย!) รายละเอียดของขั้นตอนการทำงานเหล่านี้จะแตกต่างกันออกไปสำหรับโปรแกรมโอซีอาร์แต่ละตัว ซึ่งส่วนหนึ่งก็เป็นเรื่องรายละเอียดทางด้านเทคนิคที่เป็นกลเม็ดเคล็ดลับของแต่ละบริษัท แต่อีกส่วนก็ขึ้นกับลักษณะงานเฉพาะด้านของโปรแกรมนั้น ทั้งนี้เนื่องจากโปรแกรมประเภทโอซีอาร์อาจแบ่งออกได้เป็นหลายกลุ่ม ซึ่งมีวัตถุประสงค์เพื่อนำไปใช้กับงานที่มีลักษณะแตกต่างกัน ตัวอย่างเช่น โอซีอาร์สำหรับลายมือเขียน (Hand Written OCR) ก็มักจะใช้เทคนิคที่ต่างจากโอซีอาร์สำหรับตัวพิมพ์ (Printed Text OCR) และอื่นๆ ซึ่งเราจะกล่าวถึงรายละเอียดของโอซีอาร์แต่ละกลุ่มในลำดับต่อไป นอกจากนั้นลักษณะของภาษาก็มีอิทธิพลต่อการเลือกใช้เทคนิคด้วย เนื่องจากความยากง่ายและรูปร่างตัวอักษรของแต่ละภาษาแตกต่างกัน ดังนั้นเทคนิคที่ใช้กับภาษาไทยจึงต่างจากภาษาอื่นๆ เช่น ภาษาอังกฤษ และภาษาจีน ซึ่งเงื่อนไขต่างๆ เหล่านี้เป็นเพียงส่วนหนึ่งของความซับซ้อนที่ส่งผลต่อกระบวนการทำงานที่เกิดขึ้นภายในโปรแกรม ทั้งนี้ยังมีส่วนอื่นๆ ที่เป็นข้อกำหนดในการเลือกวิธีการที่เหมาะสมสำหรับจัดการกับปัญหาที่หลากหลาย เพื่อจะได้โปรแกรมโอซีอาร์ที่ดีที่สุด

ก่อนที่จะกล่าวถึงรายละเอียดทางด้านเทคนิคเราควรทำความเข้าใจกับคำว่า “Optical Character Recognition” หรือ OCR กันก่อน ซึ่งถ้าจะแปลเป็นภาษาไทยอย่างตรงไปตรงมา ก็คงจะได้ว่า “การรู้จำตัวอักษรโดยการมองเห็น (ภาพ) ” ซึ่งเห็นได้ชัดว่าถ้าจะอธิบายให้คนที่ไม่รู้จักโอซีอาร์ฟัง แล้วเข้าใจด้วยละก็ จำเป็นจะต้องมาแปลให้เป็นภาษาไทยกันอีกที แบบที่จะสามารถเข้าใจกันได้ง่ายๆกว่านี้ ฉะนั้นเราน่าจะมาลองแปลกันใหม่ดีกว่า

เริ่มจากคำว่า optical ซึ่งในที่นี้หมายถึงการอ่านภาพ (ตัวอักษร) ด้วยอุปกรณ์ตรวจจับความเข้มของแสง ซึ่งก็คือเครื่องสแกนหรืออุปกรณ์ที่ทำงานในลักษณะเดียวกันนี้นั่นเอง ที่เป็นตัวรับข้อมูลเข้ามาเป็นรูปภาพ เพื่อนำไปสู่กระบวนการขั้นต่อๆ ไปของโปรแกรม การที่จะต้องมีคำนี้ประกอบอยู่ด้วยนั้น สืบเนื่องมาจากความพยายามที่จะสร้างเครื่องอ่านเอกสารอัตโนมัติในยุคแรกๆ ซึ่งนอกจากการอ่านข้อมูลแบบ optical แล้ว ยังมีการใช้วิธีการทางด้านแม่เหล็กและกลไกด้วย ถึงแม้ในปัจจุบันเราจะไม่ได้ใช้วิธีการทั้งสองแบบหลังนี้แล้วก็ตาม คำว่า optical ก็ยังคงอยู่ เพราะคนส่วนใหญ่จะรู้จักคำว่า OCR ในแง่เป็นคำเฉพาะที่หมายถึงซอฟต์แวร์ประเภทนี้ไปแล้ว ดังนั้นการที่จะเอาตัว O หรือ optical ออกนั้นคงจะสายเกินไป คำต่อมา character ก็คือตัวอักษร เพื่อระบุว่าตัวโปรแกรมนั้นทำงานกับอะไร ซึ่งก็คือตัวอักษรที่จะถูกแปลงจากรูปตัวอักษรมาเป็นรหัสตัวอักษร ที่เราสามารถใช้เวิร์ดโปรเซสเซอร์เปลี่ยนแปลงแก้ไขได้ (และต่อจากนี้ขอใช้คำว่ารูปตัวอักษรและรหัสตัวอักษรในการอ้างอิงถึงตัวอักษรทั้งสองแบบดังกล่าว เพื่อให้เกิดความเข้าใจที่ชัดเจนในการสื่อความหมาย) นอกจากนี้ชนิดของตัวอักษรยังใช้เป็นเกณฑ์ในการแบ่งประเภทของโอซีอาร์ด้วยเช่น ตัวพิมพ์ ตัวเขียน เป็นต้น ซึ่งจะกล่าวถึงในหัวข้อถัดไป ส่วนคำสุดท้าย recognition หมายถึงการบอกว่ารูปภาพของตัวอักษรนั้นเป็นตัวอะไร โดยแปลงให้เป็นรหัสตัวอักษรที่เครื่องคอมพิวเตอร์สามารถนำไปทำงานอื่นๆ ได้ เนื่องจากตัวอักษรตัวหนึ่งๆ สามารถเขียนได้หลากหลายลักษณะ ทำให้งานส่วนนี้กลายเป็นส่วนที่สำคัญที่สุดของระบบ และมีความยุ่งยากซับซ้อนมาก ถึงตอนนี้ลองมาสรุปความหมายของคำว่า “optical character recognition” กันอีกครั้ง ซึ่งน่าจะแปลว่าโปรแกรมที่แปลงภาพตัวอักษรที่ได้จากเครื่องสแกนเนอร์ให้เป็นรหัสตัวอักษรที่เราสามารถเอาไปใช้กับเวิร์ดโปรเซสเซอร์เพื่อที่จะเปลี่ยนแปลงแก้ไขเพิ่มเติมได้

ประเภทของโอซีอาร์[แก้]

ตามที่ได้กล่าวไว้แล้วข้างต้นเราสามารถแบ่งโปรแกรมโอซีอาร์ได้เป็นกลุ่มๆ ตามลักษณะหรือแหล่งที่มาของตัวอักษรที่ตรงกับความสามารถของโปรแกรม ซึ่งเราสามารถจะแบ่งออกเป็นกลุ่มได้ดังนี้

เทคโนโลยีโอซีอาร์
เทคโนโลยีโอซีอาร์

การรู้จำตัวอักษรแบบออนไลน์ (On-line Character Recognition)[แก้]

กลุ่มนี้จะต่างจากกลุ่มอื่นๆ ในแง่ของวิธีการอินพุตข้อมูล ซึ่งจะได้มาจากดิจิไทเซอร์หรือปากกาอิเล็กทรอนิกส์ที่ใช้กับเครื่องคอมพิวเตอร์มือถือ ส่วนการวิเคราะห์ตัวอักษรจะทำในขณะที่มีการลากเส้นเพื่อเขียนตัวอักษร (ออนไลน์) ซึ่งมีวิธีการทำงานที่ต่างจากวิธีการอื่นๆ ถ้าจะเทียบความยากง่ายกับการรู้จำลายมือเขียนแบบออฟไลน์ กลุ่มนี้จะง่ายกว่าเพราะจะได้ข้อมูลเพิ่มเติมเกี่ยวกับทิศทางและลำดับการลากเส้นมาช่วยด้วย โอซีอาร์กลุ่มนี้มักมาพร้อมกับอุปกรณ์การเขียนที่จะกำหนดพื้นที่ให้อินพุตข้อมูล โดยส่วนใหญ่มักต้องเขียนทีละตัวอักษร ความก้าวหน้าของเทคโนโลยีด้านนี้จะมีผลเป็นอย่างมากต่อการเจริญเติบโตของธุรกิจในวงการเครื่องคอมพิวเตอร์มือถือที่เป็นคอมพิวเตอร์ขนาดเล็ก ซึ่งต้องอาศัยการใส่อินพุตจากปากกาอิเล็กทรอนิกส์แทนคีย์บอร์ด

การรู้จำตัวอักษรแบบออฟไลน์ (Off-line Character Recognition)[แก้]

อินพุตของระบบจะเป็นภาพของตัวอักษรที่ได้จากเครื่องสแกน อาจจะเป็นตัวอักษรแบบพิมพ์ หรือแบบเขียน และอาจเป็นตัวอักษรแบบเดี่ยวๆ หรือติดกันเป็นกลุ่มตัวอักษร

ตัวอักษรโดด (Single Character)[แก้]

คือกลุ่มของโปรแกรมโอซีอาร์ที่ทำงานกับภาพตัวอักษรฉบับที่เป็นตัวเดี่ยวๆ ไม่ได้เชื่อมติดกับตัวอื่น โปรแกรมกลุ่มนี้สามารถแบ่งย่อยออกเป็น 2 กลุ่ม ได้แก่

  1. การรู้จำตัวพิมพ์แบบฟอนต์เฉพาะ (Printed Fixed-Font Character Recognition)

เป็นกลุ่มของโปรแกรมที่ใช้ได้กับตัวอักษรประเภทตัวพิมพ์ที่มีการกำหนดกลุ่มของฟอนต์ ซึ่งถือว่าอยู่ในระดับง่ายที่สุดในด้านการพัฒนาเทคนิคในการทำงานของโปรแกรม ถึงกระนั้นก็ตาม โปรแกรมในกลุ่มนี้ก็ยังประสบกับปัญหาที่เกิดจากเอกสารคุณภาพต่ำ ซึ่งจะส่งผลให้ได้ภาพที่เปรอะเปื้อน ทำให้ภาพตัวอักษรติดกันหรือขาดออกจากกัน เหล่านี้เป็นตัวการสำคัญที่ทำให้อัตราความถูกต้องของโปรแกรมลดลง

ตัวอักษรที่มีส่วนเชื่อมติดกันและขาดจากกัน
  1. การรู้จำลายมือเขียนแบบตัวโดด (Isolated Handprint Character Recognition (ICR))

ตัวอักษรของกลุ่มนี้เป็นลายมือเขียนที่มักจะถูกกำหนดให้เขียนในกรอบที่จัดไว้ โดยเขียนทีละตัวแยกออกจากกัน ตัวอย่างงานที่เข้าข่ายกลุ่มนี้ได้แก่ โปรแกรมโอซีอาร์ที่ใช้แยกจดหมายจากรหัสไปรษณีย์ซึ่งเป็นตัวเลขจากลายมือเขียนเป็นต้น การรู้จำลายมือเขียนเป็นเรื่องยากมาก เพราะตัวอักษรแต่ละตัวที่เขียนโดยคนแต่ละคนมีความหลากหลายมาก ถึงแม้บางครั้งจะเป็นการเขียนโดยคนๆ เดียว การเขียนแต่ละครั้งก็ยังแตกต่างกัน ดังนั้นโปรแกรมพวกนี้มักมีข้อกำหนดบางอย่าง เช่น สามารถอ่านได้เฉพาะตัวเลข หรือสามารถอ่านลายมือของคนที่ได้ลองเขียนตัวอักษรตัวอย่างชุดหนึ่งให้โปรแกรมรู้จักก่อนเท่านั้น

การรู้จำลายมือแบบเขียนต่อเนื่อง (Script recognition)[แก้]

กลุ่มนี้ได้โจทย์ในระดับที่ยากที่สุดในจำนวนตระกูลโอซีอาร์ทั้งหลาย เพราะตัวอักษรที่โปรแกรมจะต้องอ่านเป็นตัวอักษรที่เป็นลายมือเขียนโดยไม่มีข้อกำหนดใดๆ ผู้เขียนสามารถเขียนได้ตามธรรมชาติอย่างต่อเนื่อง ดังนั้นตัวอักษรที่ได้อาจมีเส้นที่ลากเชื่อมตัวอักษรหลายๆ ตัวให้ติดกัน และประกอบกับความแตกต่างอย่างมากของลายมือของคนแต่ละคน โปรแกรมในกลุ่มนี้บางทีเรียกว่าการรู้จำลายมือเขียนแบบอิสระ (freestyle handwriting recognition) ถึงแม้จะมีผลิตภัณฑ์โอซีอาร์กลุ่มนี้ออกสู่ตลาดบ้างแล้ว แต่หัวข้อนี้ก็ยังคงต้องการการวิจัยเพิ่มเติมอีกมาก

การรู้จำแบบ[แก้]

โปรแกรมประเภทโอซีอาร์เป็นโปรแกรมที่ประยุกต์ความรู้ด้านการรู้จำแบบ (pattern recognition) ซึ่งต้องอาศัยเทคนิคการวิเคราะห์แยกแยะและการระบุชนิด โดยอินพุตของโปรแกรมมักจะต้องผ่านกระบวนการย่อยๆ อีกหลายขั้นขึ้นอยู่กับการประยุกต์ใช้ ได้แก่ การกรองข้อมูลแทรกซ้อน การปรับแต่งข้อมูล การเลือกตัดแบ่งพื้นที่ใช้งาน การสกัดลักษณะสำคัญ การจำแนกแยกแยะ การรู้จำ และอื่นๆ โดยในแต่ละขั้นตอนก็สามารถจะมีวิธีการได้อีกหลากหลายวิธี ขึ้นอยู่กับตัวข้อมูลและการประยุกต์ใช้

นอกจากโอซีอาร์แล้ว งานประยุกต์ที่แตกแขนงออกมาจากการรู้จำแบบได้แก่ การรับรู้ภาพของคอมพิวเตอร์, การวิเคราะห์การเกิดแผ่นดินไหว, การแยกแยะและวิเคราะห์สัญญาณเรดาร์, การรู้จำใบหน้า, การรู้จำเสียงพูด, การเข้าใจเสียงพูด, การระบุลายพิมพ์นิ้วมือ, การวินิจฉัยทางการแพทย์ และอื่นๆ

โครงสร้างระบบโอซีอาร์[แก้]

โครงสร้างของระบบโอซีอาร์โดยทั่วไปประกอบไปด้วยขั้นตอนการทำงานหลัก 3 ขั้น แต่ละขั้นตอนประกอบด้วยรายละเอียดดังนี้

ขบวนการประมวลผลขั้นต้น (Pre-Processing)[แก้]

ในการทำงานของโปรแกรมโอซีอาร์นั้น ก่อนที่โปรแกรมจะสามารถบอกได้ว่ารูปภาพที่ส่งเข้าไปประกอบด้วยตัวอักษรอะไรบ้าง จำเป็นจะต้องผ่านขั้นตอนที่สำคัญหลายขั้น ขั้นตอนดังกล่าวนี้มักถูกเรียกรวมกันว่า กระบวนการประมวลผลขั้นต้น (Pre-Processing) ซึ่งเป็นขั้นตอนในการปรับแต่งและจัดเตรียมข้อมูลให้เหมาะสมกับขั้นตอนการรู้จำต่อไป ขั้นตอนเหล่านี้มีความสำคัญต่อประสิทธิภาพโดยรวมของระบบ เพราะหากมีความผิดพลาดเกิดขึ้นในส่วนนี้ ก็จะส่งผลกระทบไปยังส่วนถัดไปของระบบด้วย

ขั้นตอนการประมวลผลเบื้องต้นในโปรแกรมโอซีอาร์ที่สำคัญ ได้แก่

การกรองข้อมูลแทรกซ้อน (Noise Filtering)[แก้]

การกรองข้อมูลแทรกซ้อนมีจุดประสงค์เพื่อลดทอนส่วนของรูปภาพที่เป็นสิ่งแปลกปลอมอันไม่พึงประสงค์ออกไป โดยข้อมูลแทรกซ้อนที่เกิดขึ้นส่วนใหญ่มักจะมาจากคุณภาพของเอกสารต้นฉบับที่นำมาทำการอ่าน ซึ่งเป็นต้นเหตุสำคัญที่ทำให้ความถูกต้องของโปรแกรมลดลง จึงจำเป็นที่จะต้องจัดการกับส่วนเกินเหล่านี้ออกไปให้ได้มากที่สุดเท่าที่จะเป็นไปได้ แต่เรายังไม่มีวิธีการใดที่รับรองได้ว่าสามารถจัดการกับข้อมูลแทรกซ้อนได้ โดยสมบูรณ์ ดังนั้นส่วนการรู้จำของโอซีอาร์ก็จะต้องมีความทนทานต่อการแทรกซ้อนเหล่านี้ได้พอสมควร

การปรับแต่งข้อมูล (Normalization)[แก้]

การปรับแต่งข้อมูลเป็นการปรับภาพตัวอักษรให้อยู่ในรูปแบบที่ระบบต้องการเพื่อนำไปใช้ในขั้นต่อไป ตัวอย่างการปรับแต่งข้อมูลในโปรแกรมโอซีอาร์ทั่วๆ ไป อาทิเช่น การปรับขนาดรูปตัวอักษร, การปรับตัวอักษรที่เอียงให้ตรง, การแปลงรูปสีหรือเกรย์สเกลให้เป็นขาวดำ หรือในทางกลับกัน การแปลงรูปขาวดำให้เป็นสีหรือเกรย์สเกล เป็นต้น

การตัดแบ่งพื้นที่ใช้งาน (Cropping)[แก้]

การตัดแบ่งพื้นที่เป็นการตัดแยกเอาเฉพาะรูปตัวอักษรออกมาจากภาพ เพื่อส่งให้ขั้นตอนการรู้จำในการระบุว่ารูปตัวอักษรนั้นเป็นรหัสอักษรอะไร หลักการพอสังเขปที่ใช้สำหรับการตัดรูปตัวอักษรโดยทั่วไปจะใช้พื้นที่สีขาว (สีพื้น) รอบรูปเป็นตัวกำหนดขอบเขตในการตัด ในขั้นตอนนี้มักจะประสบปัญหาที่ส่งผลกระทบต่ออัตราความถูกต้องของระบบโดยรวมอยู่สองปัญหา ปัญหาแรกคือปัญหาตัวติด เกิดจากรูปของตัวอักษรตั้งแต่สองตัวขึ้นไปมีส่วนที่เชื่อมติดกัน ทำให้ไม่สามารถแยกตัวอักษรออกจากกันโดยใช้พื้นที่สีขาวรอบๆ ได้ จำเป็นต้องหาอัลกอริธึมพิเศษมาช่วยในการแยกตัวอักษรออกจากกัน ส่วนปัญหาที่สองในทางตรงกันข้าม เป็นปัญหาตัวขาดที่รูปตัวอักษรหนึ่งๆ ถูกแยกออกเป็นส่วนๆ ทำให้เวลาตัดตัวอักษรจากตัวเดียวจะได้เป็นสองตัว ซึ่งก็ต้องหาวิธีการเฉพาะสำหรับมาจัดการอีกเช่นกัน

การสกัดลักษณะสำคัญ (Feature Extraction)[แก้]

การสกัดลักษณะสำคัญเป็นอีกขบวนการหนึ่งที่สำคัญมาก ตำราส่วนใหญ่จะแยกส่วนนี้ออกจากการประมวลผลเบื้องต้น คือจะอยู่ระหว่างขั้นตอนการประมวลผลเบื้องต้นกับขั้นตอนการรู้จำ แต่ในที่นี้ขอรวมไว้ในตอนเดียวกัน การสกัดลักษณะสำคัญเป็นการดึงเอาโครงสร้างพื้นฐานที่สำคัญของตัวอักษรนั้นออกมา โดยโครงสร้างพื้นฐานที่ว่าจะต้องมีการกำหนดไว้ก่อนว่าจะมีอะไรบ้าง มีการนิยามอย่างไร ตัวอย่างเช่น สำหรับภาษาไทยเราอาจกำหนดว่าตัวอักษรภาษาไทยทั้งหมดประกอบด้วยโครงสร้างพื้นฐานคือ เส้นตรง (แนวตั้ง/นอน) เส้นเอียง หัว (วงกลม) ส่วนโค้ง ส่วนเว้า จุดแตกกิ่ง จุดตัด เป็นต้น เมื่อเราสามารถแยกเอาองค์ประกอบของตัวอักษรแต่ละตัวออกมาได้แล้ว จากนั้นเราก็นำเสนอรูปภาพของตัวอักษรนั้นในรูปแบบของรายการขององค์ประกอบพื้นฐานต่างๆ แทน ซึ่งจะถูกส่งต่อเป็นอินพุตสำหรับขั้นตอนการรู้จำต่อไป

การรู้จำ (Recognition)[แก้]

ขั้นตอนนี้ถือเป็นหัวใจของระบบ เพราะเป็นส่วนที่จะตัดสินว่ารูปตัวอักษรที่ส่งเข้าไปเป็นรหัสตัวอักษรอะไร เช่นเดียวกับส่วนอื่นๆ ที่มีวิธีการหลากหลายซึ่งนำมาใช้เพื่อให้ได้ผลการทำงานที่ดีที่สุด เทคนิคใหม่ๆ ได้ถูกพัฒนาขึ้นมาอย่างต่อเนื่องเพื่อรองรับกับปัญหาที่เกิดจากเอกสารที่มีความสลับซับซ้อนมากขึ้น อย่างไรก็ตามเราพอที่จะจัดแบ่งเทคนิคเหล่านี้ออกเป็นกลุ่มตามแนวทางหลักที่ใช้ในการแก้ปัญหา ถึงแม้บ่อยครั้งที่พบว่ามีความคาบเกี่ยวกันของเทคนิคที่นำมาใช้ระหว่างกลุ่มที่ว่านี้ ทั้งนี้เพราะแต่ละแนวทางก็มีข้อดีข้อเสียที่แตกต่างกัน จึงมีความพยายามที่จะรวมเอาเทคนิคเหล่านี้มาใช้ร่วมกันเพื่อเพิ่มความสามารถของระบบเท่าที่จะเป็นไปได้ ดังนั้นการแบ่งกลุ่มในที่นี้ เป็นการแบ่งที่เน้นความชัดเจนในแง่ของขอบเขตทางทฤษฎีเป็นหลัก โดยแนวทางการรู้จำสามารถแบ่งออกได้เป็น 4 กลุ่ม ดังนี้

วิธีทางการเข้าคู่รูปแบบ (Template Matching)[แก้]

วิธีการเข้าคู่รูปแบบเป็นวิธีการแรกๆ ที่มาใช้ในการรู้จำตัวอักษร หลักการโดยทั่วไปคือ จะต้องมีรูปแบบ (template) ที่สร้างขึ้นมาสำหรับอ่านตัวอักษร โดยมีการกำหนดตำแหน่งสำคัญที่สามารถใช้แยกแยะความแตกต่างระหว่างตัวอักษรแต่ละตัว เวลาทำงานก็ให้นำรูปภาพที่ต้องการอ่านไปทาบบนแบบเพื่อวัดความคล้ายคลึงกันของภาพกับตัวแบบ จากนั้นก็ระบุว่าเป็นรหัสตัวอักษรอะไร โดยใช้ค่าผ่านระดับหรือวิธีการบางอย่างในการตัดสิน วิธีการนี้จะค่อนข้างอ่อนไหวต่อข้อมูลแทรกซ้อน ขนาด และการเอียงของตัวอักษร จึงจำเป็นต้องมีขั้นตอนการปรับแต่งข้อมูลที่ดี นอกจากนั้นขั้นตอนการเปรียบเทียบก็ไม่ใช่ว่าสามารถเทียบกันแบบจุดต่อจุดได้ เพราะในทางปฏิบัติตัวอักษรที่ส่งเข้าสามารถมีความแปรปรวนได้หลายรูปแบบ ดังนั้นวิธีการเทียบก็ต้องมีประสิทธิภาพเพียงพอที่จะรองรับกับปัญหาดังกล่าวได้

วิธีทางสถิติ (Statistical Approach)[แก้]

วิธีทางสถิติเป็นวิธีการที่ใช้หลักการทางสถิติ โดยนำค่าความน่าจะเป็นและ/หรือฟังก์ชันการแจกแจงความน่าจะเป็นมาใช้ในการตัดสินใจ รูปภาพอินพุตที่ได้มาจากขั้นตอนการสกัดลักษณะสำคัญ จะถูกส่งเข้าไปในส่วนการรู้จำเฉพาะของแต่ละตัวอักษร ซึ่งได้ผลลัพธ์ออกมาเป็นค่าความน่าจะเป็นที่อินพุตเป็นตัวอักษรใด เมื่ออินพุตได้ผ่านส่วนการรู้จำครบทุกตัวแล้ว ก็นำเอาผลลัพธ์ที่ได้ทั้งหมดมาเปรียบเทียบกันว่าได้ค่าความน่าจะเป็นของตัวอักษรใดมากที่สุด ผลลัพธ์จะออกเป็นตัวอักษรนั้น

วิธีการวิเคราะห์ทางโครงสร้าง (Structural Analysis)[แก้]

วิธีการวิเคราะห์ทางโครงสร้างคือการวิเคราะห์โครงสร้างตัวอักษร โดยถือว่าตัวอักษรทุกตัวประกอบด้วยองค์ประกอบพื้นฐาน ซึ่งได้มาจากการสกัดลักษณะสำคัญ เช่นเดียวกันกับวิธีการทางสถิติ ต่างกันตรงที่ลักษณะสำคัญ ที่ส่งมาให้กับขั้นตอนการรู้จำแบบการวิเคราะห์ทางโครงสร้างนี้ มักจะใช้เป็นชื่อหรือค่าที่บอกว่าลักษณะโครงสร้างสำคัญนั้นเป็นอะไร เช่น เส้นตรง วงกลม เป็นต้น แทนที่จะเป็นค่าจำนวนจริง ในขั้นตอนการรู้จำลักษณะสำคัญทั้งหลายที่ประกอบเป็นตัวอักษรนั้น จะถูกส่งเข้าไปให้กับส่วนที่ตรวจวิเคราะห์กฎการเขียนตัวอักษร เช่น ฟอร์มอลแกรมมาแมชชีน (formal grammar machine) โครงสร้างกราฟ หรือโครงสร้างต้นไม้เป็นต้น เพื่อระบุว่าเป็นตัวอะไร ซึ่งจะตัดสินโดยการดูที่รูปแบบการเชื่อมต่อขององค์ประกอบต่างๆ เข้าเป็นตัวอักษรนั้น วิธีการนี้มีข้อดีตรงที่มีความยืดหยุ่นต่อความหลากหลายของตัวอักษรค่อนข้างมาก อย่างไรก็ตามอัตราความถูกต้องของวิธีนี้ขึ้นอยู่กับการสร้างกฎและการวิเคราะห์กฎที่มีประสิทธิภาพ ซึ่งเป็นส่วนที่สำคัญที่สุดของวิธีการนี้

วิธีทางโครงข่ายประสาทเทียม (Neural Network)[แก้]

วิธีทางโครงข่ายประสาทเทียมเป็นแนวทางใหม่ที่ได้รับความนิยมอย่างมากในช่วงหลัง เนื่องจากประสิทธิภาพในด้านการรู้จำแบบ ซึ่งถูกนำไปใช้ในงานหลายๆ ด้าน รวมทั้งโอซีอาร์ด้วย โครงข่ายประสาทเทียมเป็นเทคนิคที่พยายามเรียนแบบการทำงานของสมองมนุษย์ ที่มีโครงข่ายเชื่อมต่อกันของหน่วยความจำย่อยๆ จำนวนมากที่สะสมความรู้เอาไว้ ความรู้เหล่านี้จะได้จากการฝึกสอนไว้ก่อน เช่นการสอนให้รู้จักตัวอักษร “ก” ถึง “ฮ” โดยการส่งภาพตัวอักษรเหล่านี้เข้าไป พร้อมกับบอกว่ามีค่าเป็นรหัสตัวอักษรอะไร โครงข่ายประสาทเทียมจะเรียนรู้ถึงรูปแบบตัวอักษรที่หลากหลายของตัวอักษรตัวนั้น เพื่อว่าเวลาทำงานจริงจะได้มีความสามารถพอที่จะรับมือกับภาพตัวอักษรในหลายๆ รูปแบบ สิ่งที่สอนให้กับโครงข่ายประสาทเทียมไม่จำเป็นต้องเป็นรูปของตัวอักษรอย่างที่เราเห็นกันก็ได้ อินพุตที่ส่งให้มักจะผ่านขั้นตอนการสกัดลักษณะสำคัญ และกระบวนการประมวลผลเบื้องต้นอื่นๆ ก่อนเสมอ

ขบวนการประมวลผลขั้นปลาย (Post-Processing)[แก้]

หลังจากที่ผ่านขั้นตอนการรู้จำแล้ว รูปตัวอักษรที่ถูกส่งเข้าไปจะได้ผลลัพธ์ออกมาเป็นรหัสตัวอักษร ซึ่งก็ไม่ได้หมายความว่าเอาต์พุตที่ได้มาจะถูกต้องทั้งหมด ไม่มีผลิตภัณฑ์โอซีอาร์ตัวใด ไม่ว่าจะเป็นภาษาใดก็ตามที่รับรองความถูกต้อง 100 % ดังนั้นเพื่อเพิ่มความถูกต้องให้แก่โปรแกรมจึงได้มีการเสริมส่วนการตรวจสอบและแก้ไขข้อความเข้ามา โปรแกรมส่วนนี้มักจะทำงานเกี่ยวกับการตรวจสอบความถูกต้องของการสะกดคำและไวยากรณ์ภาษา โดยมักจะใช้พจนานุกรมมาช่วยในการตรวจสอบคำผิด ซึ่งอาจแก้ไขให้โดยอัตโนมัติหรือแสดงเครื่องหมายบางอย่างเพื่อบอกให้ผู้ใช้ทราบว่าคำดังกล่าวอาจไม่ถูกต้อง ซึ่งผู้ใช้อาจแก้หรือไม่แก้ก็ขึ้นกับการตัดสินใจของผู้ใช้เอง นอกเหนือไปจากการตรวจสอบความถูกต้องระดับคำแล้ว บางโปรแกรมยังมีความสามารถตรวจสอบไวยากรณ์ในระดับประโยคได้ด้วย

ส่วนขบวนการประมวลผลขั้นปลายในโปรแกรมโอซีอาร์เป็นส่วนที่มีความสำคัญมาก ลำพังแต่ความสามารถของส่วนการรู้จำนั้นไม่สามารถไปถึงระดับที่ผู้ใช้ยอมรับได้ (ซึ่งที่ต้องการจริงๆ คือ 100%) ดังนั้นส่วนนี้สามารถเพิ่มอัตราความถูกต้องให้แก่โปรแกรมได้ โดยเฉพาะในส่วนที่นอกเหนือจากความสามารถของส่วนการรู้จำ เช่น ตัวอักษรที่เปรอะเปื้อนมากๆ หรือตัวอักษรที่ติดหรือขาด เป็นต้น

เครื่องจำอักขระด้วยแสงเปรียบเทียบกับแบบดิจิทัล[แก้]

เครื่องจำอักขระด้วยแสง (ใช้เทคนิคเกี่ยวกับแสงเช่นเดียวกับกระจกและเลนส์) และเครื่องจำอักขระแบบดิจิทัล (ใช้เครื่องสแกนเนอร์และขั้นตอนทางคอมพิวเตอร์) ซึ่งในปัจจุบัน เครื่องจำอักขระด้วยแสงได้ถูกพัฒนาให้ครอบคลุม การจำตัวอักษรได้ดีกว่าเดิม

ระบบสำหรับการจดจำ การพิมพ์ลายมือ[แก้]

ระบบสำหรับการจดจำ การพิมพ์ลายมือ บนธุรกิจการบินได้รับความสำเร็จด้วยดีในปีที่ผ่านมา โดยนำอุปกรณ์เหล่านี้เข้ามาช่วยได้แก่ พาล์มไพลอท (Palm Pilot) และ พีดีเอ (Personal Digital Assistant) โดย Apple Newton เป็นผู้บุกเบิกเทคโนโลยีนี้ วิธีใช้อุปกรณ์เหล่านี้จะมีการเปรียบเทียบข้อเท็จจริงเกี่ยวกับคำสั่ง ความเร็ว และคำแนะนำ เมื่อข้อมูลนำได้ถูกรับทราบอีกด้วย ผู้ใช้สามารถฝึกฝนเพื่อใช้รูปร่างจดหมายอย่างจำเพาะเจาะจงเท่านั้น

การฝึกหัด[แก้]

ระบบที่เร่งด่วนต้องการที่จะอ่านแบบตัวอักษร หรือ ฟอนต์ อย่างจำเพาะเจาะจง ในเวลานี้แม้ระบบอัจฉริยะ จะสามารถสังเกตเห็นแบบอักษรมากๆด้วยความแม่นยำในระดับสูง ระบบจึงเหมาะแก่การทำสำเนาผลลัพธ์ ที่ใกล้เคียงกับการสแกนรูปภาพ คอลัมน์และอื่นๆ ซึ่งไม่เป็นส่วนประกอบของต้นฉบับ