การรู้จำอักขระด้วยแสง

จากวิกิพีเดีย สารานุกรมเสรี

การรู้จำอักขระด้วยแสง (อังกฤษ: optical character recognition) หรือมักเรียกอย่างย่อว่า โอซีอาร์ (อังกฤษ: OCR) คือกระบวนการทางกลไกหรือทางอิเล็กทรอนิกส์เพื่อแปลภาพของข้อความจากการเขียนหรือจากการพิมพ์ ไปเป็นข้อความที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์ การจับภาพอาจทำโดยเครื่องสแกนเนอร์ กล้องดิจิทัล

โอซีอาร์เป็นสาขาวิจัยในการรู้จำแบบ, ปัญญาประดิษฐ์, และคอมพิวเตอร์วิทัศน์ แม้การวิจัยเชิงวิชาการในสาขายังคงดำเนินอยู่ แต่จุดเน้นในสาขาโอซีอาร์ได้เปลี่ยนไปสู่การสร้างระบบที่ใช้ได้จริงจากเทคนิคที่พิสูจน์แล้ว การรู้จำอักขระด้วยแสง (การใช้เทคนิคทางแสง เช่นกระจกและเลนส์) การรู้จำอักขระทางดิจิทัล (การใช้เทคนิคทางดิจิทัล เช่นสแกนเนอร์และอัลกอริธึมคอมพิวเตอร์) เดิมเคยเป็นสาขาที่แยกจากกัน แต่เนื่องจากเหลือการใช้งานน้อยมากที่ใช้เฉพาะเทคนิคทางแสง คำว่า โอซีอาร์ ในปัจจุบันจึงกินความกว้างถึงการประมวลผลภาพทางดิจิทัลด้วยเช่นกัน

ระบบในสมัยเริ่มแรกต้องการการฝึกฝน (สอนตัวอย่างที่รู้จักแล้วของแต่ละตัวอักษร) เพื่ออ่านฟอนต์หนึ่ง ๆ ปัจจุบัน ระบบ "อัจฉริยะ" ที่สามารถอ่านฟอนต์ส่วนใหญ่ได้แม่นยำสูงนั้นสามารถพบได้ทั่วไป บางระบบถึงกับสามารถคงรูปแบบการจัดหน้าเดิมไว้ได้เกือบหมด ซึ่งรวมถึง รูปภาพ การแบ่งคอลัมน์ และส่วนประกอบที่ไม่ใช่ข้อความอื่น ๆ