ผลต่างระหว่างรุ่นของ "ภาษาศาสตร์คอมพิวเตอร์"
interwiki + gl |
|||
บรรทัด 57: | บรรทัด 57: | ||
[[fa:زبانشناسی محاسباتی]] |
[[fa:زبانشناسی محاسباتی]] |
||
[[fr:Linguistique informatique]] |
[[fr:Linguistique informatique]] |
||
[[gl: |
[[gl:Lingüística computacional]] |
||
[[he:בלשנות חישובית]] |
[[he:בלשנות חישובית]] |
||
[[hr:Računalna lingvistika]] |
[[hr:Računalna lingvistika]] |
รุ่นแก้ไขเมื่อ 05:27, 15 กันยายน 2551
ลิงก์ข้ามภาษาในบทความนี้ มีไว้ให้ผู้อ่านและผู้ร่วมแก้ไขบทความศึกษาเพิ่มเติมโดยสะดวก เนื่องจากวิกิพีเดียภาษาไทยยังไม่มีบทความดังกล่าว กระนั้น ควรรีบสร้างเป็นบทความโดยเร็วที่สุด |
ส่วนหนึ่งของรายการเรื่อง |
ภาษาศาสตร์ |
---|
สถานีย่อย |
ภาษาศาสตร์เชิงคำนวณ (อังกฤษ: computational linguistics) หรือ ภาษาศาสตร์คอมพิวเตอร์ เป็นสหวิทยาการที่ว่าด้วยการสร้างแบบจำลองเชิงตรรกะของภาษาธรรมชาติ จากมุมมองในเชิงคำนวณ. แบบจำลองนี้ ไม่ได้จำกัดอยู่แค่ในสาขาในสาขาหนึ่งของภาษาศาสตร์
เดิมทีเดียว นักภาษาศาสตร์เชิงคำนวณมักจะเป็นนักวิทยาศาสตร์คอมพิวเตอร์ ซึ่งเชี่ยวชาญในด้านการประยุกต์ใช้คอมพิวเตอร์เพื่อประมวลผลภาษาธรรมชาติ (natural language) แต่งานวิจัยในช่วงหลัง ได้แสดงให้เห็นว่า ภาษานั้นซับซ้อนเกินกว่าที่คาดคิดไว้ ดังนั้นกลุ่มศึกษาภาษาศาสตร์เชิงคำนวณจึงกลายสภาพเป็นกลุ่มสหวิทยาการไป โดยจะต้องมีอย่างน้อยหนึ่งคนที่เป็นนักภาษาศาสตร์ (นั่นคือ ฝึกฝนมาทางด้านภาษาศาสตร์โดยเฉพาะ) ส่วนคนอื่น ๆ อาจจะเชี่ยวชาญในสาขา วิทยาศาสตร์คอมพิวเตอร์ ปัญญาประดิษฐ์ จิตวิทยาด้านการรับรู้ (en:cognitive psychology) ตรรกวิทยา และอื่น ๆ
จุดกำเนิด
ภาษาศาสตร์เชิงคำนวณนั้นนับเป็นแขนงวิชาแรกเริ่มของปัญญาประดิษฐ์แขนงหนึ่ง ซึ่งเริ่มต้นในสหรัฐอเมริกาในช่วงคริสต์ทศวรรษที่ 1950 (พ.ศ. 2493 ถึง พ.ศ. 2503) เพื่อที่จะแปลเอกสารภาษาต่างประเทศไปเป็นภาษาอังกฤษโดยอัตโนมัติ โดยเฉพาะการแปลวารสารวิทยาศาสตร์ของสหภาพโซเวียต ในสมัยนั้นคอมพิวเตอร์ได้พิสูจน์ความสามารถแล้วว่า สามารถแก้ปัญหาทางคณิตศาสตร์ที่ซับซ้อนได้เร็วกว่าและแม่นยำกว่ามนุษย์มาก แต่ถึงกระนั้น เทคนิคต่าง ๆ ก็ยังไม่ได้รับการพัฒนาให้มีประสิทธิภาพมากพอที่จะประมวลผลภาษาได้
เมื่อการแปลภาษาอัตโนมัติ (machine translation) ที่ให้ผลลัพธ์แม่นยำได้ล้มเหลว จึงได้มีการกลับมามองปัญหาของการประมวลผลภาษาใหม่ พบว่าปัญหานั้นซับซ้อนเกินกว่าที่ได้คาดคิดไว้ในตอนแรก ภาษาศาสตร์เชิงคำนวณจึงได้ถือกำเนิดขึ้นเป็นศาสตร์ใหม่ ที่อุทิศให้กับการพัฒนาอัลกอริทึม และซอฟต์แวร์ประมวลผลข้อมูลทางภาษาอย่างชาญฉลาด เมื่อปัญญาประดิษฐ์ได้ถือกำเนิดขึ้นในช่วงคริสต์ทศวรรษที่ 1960 (พ.ศ. 2503 ถึง พ.ศ. 2513) ภาษาศาสตร์เชิงคำนวณจึงได้กลายมาเป็นแขนงหนึ่งของปัญญาประดิษฐ์ โดยเน้นการจัดการกับความเข้าใจในระดับมนุษย์ (human-level comprehension) และการผลิตภาษาธรรมชาติ (production of natural languages)
ในการแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งนั้น ได้มีการศึกษาวิจัยแล้วว่า คนจะต้องเข้าใจวากยสัมพันธ์ (syntax) ของภาษาทั้งสอง และอย่างน้อยก็ต้องในระดับสัณฐานวิทยา (morphology - วากยสัมพันธ์ของรูปคำ) และทั้งประโยค ในการเข้าใจวากยสัมพันธ์ คนจะต้องเข้าใจอรรถศาสตร์ (semantics - ความหมาย) ของคำศัพท์ และรวมถึงความเข้าใจในวจนปฏิบัติศาสตร์ (pragmatics - การสื่อความหมายที่แท้จริงของภาษา) ว่าภาษานั้นได้ใช้อย่างไร เช่น เพื่อบอกเล่า (declarative) หรือเพื่อการประชดประชัน (ironic) ดังนั้นการที่จะแปลความระหว่างภาษาได้นั้น จะต้องใช้องก์ความรู้ทั้งหลายที่มุ่งเน้นความเข้าใจเกี่ยวกับ การประมวลผลและการสังเคราะห์ประโยคของภาษาธรรมชาติแต่ละภาษาโดยใช้คอมพิวเตอร์นั่นเอง
สาขาย่อย
ภาษาศาสตร์เชิงคำนวณสามารถแบ่งออกเป็นหลายแขนงหลัก ตามสื่อกลางของภาษาที่ประมวลผล ไม่ว่าจะเป็นทางการพูดหรือการเขียน และตามวิธีการใช้ภาษา ทั้งการวิเคราะห์และสังเคราะห์
- การรู้จำเสียง (en:speech recognition) และการสังเคราะห์เสียง (en:speech synthesis) เป็นการศึกษาวิธีการเข้าใจหรือสร้างภาษาพูด
- การแจกแจงโครงสร้าง (en:parsing) และการสังเคราะห์ภาษา (generation) เน้นไปที่การแยกภาษาเป็นส่วน ๆ และการประกอบรวมภาษาให้สื่อความได้ ตามลำดับ
- การแปลภาษาด้วยเครื่อง ยังคงเป็นแขนงสำคัญอันหนึ่งของภาษาศาสตร์เชิงคำนวณ โดยมีหลายแนวคิด เช่น การแปลจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งโดยตรง หรือการแปลจากภาษาต้นทางไปเป็นภาษากลาง (ภาษาสากล - inter lingua) ก่อน จากนั้นค่อยแปลจากภาษากลางไปเป็นภาษาปลายทาง
ในการวิจัยด้านภาษาศาสตร์เชิงคำนวณส่วนใหญ่ จะมีแนวทางดังต่อไปนี้
- ภาษาศาสตร์เชิงคลังเอกสาร โดยใช้คอมพิวเตอร์ช่วยวิเคราะห์ (computer aided corpus linguistics)
- การออกแบบโปรแกรมแจกแจงประโยค (parser) ให้รองรับภาษาธรรมชาติ
- การออกแบบตัวกำกับ (tagger) เช่น ตัวกำกับชนิดคำ (en:part-of-speech tagger หรือ POS-tagger)
- การนิยามตรรกศาสตร์แบบพิเศษ เช่น ตรรกศาสตร์ทรัพยากร เพื่อการประมวลผลภาษาธรรมชาติ (Natural language processing หรือ NLP)
- การวิจัยความสัมพันธ์ระหว่างภาษาฟอร์มอลกับภาษาธรรมชาติในสภาวะปกติ
สมาคมเพื่อภาษาศาสตร์เชิงคำนวณ (Association for Computational Linguistics หรือ ACL) ได้นิยามภาษาศาสตร์เชิงคำนวณไว้ว่า "เป็นการศึกษาภาษาตามแนวทางวิทยาศาสตร์จากมุมมองเชิงคำนวณ นักภาษาศาสตร์เชิงคำนวณจะสนใจที่การสร้างแบบจำลองเชิงคำนวณ (en:computational model) ของปรากฏการณ์ทางภาษาศาสตร์ทั้งหลาย"
ดูเพิ่ม
- การประมวลผลภาษาธรรมชาติ
- การแปลภาษาอัตโนมัติ
- หน่วยความจำคำแปล (translation memory)
- วารสารภาษาศาสตร์เชิงคำนวณ (Computational Linguistics (journal))
แหล่งข้อมูลอื่น
- Information Research and Development Division - ฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ (งานวิจัย RDI-2, RDI-4 และ RDI-5) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC)
- Thai Computational Linguistics Laboratory (TCL Thailand) - ห้องวิจัยภาษาศาสตร์เชิงคำนวณ
- Knowledge Information & Data Management Laboratory (KIND) - ห้องวิจัยการจัดการข้อมูล, สารสนเทศ, และความรู้ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
- Centre for Research in Speech and Language Processing (CRSLP) - จุฬาลงกรณ์มหาวิทยาลัย
- Specialty Research Unit in Natural Language Processing and Intelligent Information System Technology (NAiST) - มหาวิทยาลัยเกษตรศาสตร์
- Association for Computational Linguistics (ACL) - สมาคมเพื่อภาษาศาสตร์เชิงคำนวณ
- ACL Anthology of research papers - รวบรวมบทความวิชาการ ที่จัดพิมพ์โดย ACL ทั้งในวารสาร และการประชุมวิชาการต่างๆ
- Language Technology World