Revision 549113 of "User:Por porrop" on mediawikiwiki

== '''ประวัติส่วนตัว (Profile)'''==
<FONT SIZE=2>
'''ชื่อ'''&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;:&nbsp;นายจักรรินทร์ เทิดภาปิยะนาค<br>
'''รหัสนิสิต'''&nbsp;&nbsp;:&nbsp;55704764211<br>
'''Email'''&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;:&nbsp;[email protected]<br>
'''หลักสูตร'''&nbsp;&nbsp;:&nbsp;วิศวกรรมศาสตร์มหาบัณฑิต สาขาวิศวกรรมคอมพิวเตอร์ (วศ.ม. ก.1) <br><br>

== '''อาจารย์ที่ปรึกษา''' ==
ผศ.ดร.เกริก ภิรมย์โสภา<br><br>

=='''การบ้านครั้งที่ 1 '''==

1.สร้างเพจส่งงาน
<ul><li>http://www.cp.eng.chula.ac.th/~wiki/cpwiki/index.php/User:5570187021 </ul>
2..ศึกษาการจัดกลุ่มงานวิจัย
<ul><li>
 I. Computing Methodologies<br>
       <ul>I.2 ARTIFICIAL INTELLIGENCE<br>
           <ul>I.2.7 Natural Language Processing<br>
                 <ul>Subjects: text analysis </ul></ul></ul></ul>

3.ตั้งกรอบปัญหางานวิจัย
<ul><li>	จะออกแบบวิธีการตัดประโยคภาษาไทยอย่างไรให้ได้กลุ่มของข้อความที่มีความหมายที่เหมาะสม </ul>
4.ค้นหางานวิจัย
<ul><li>A supervised Learning based Chunking in Thai using Categorial Grammar
<ul><li> ปัญหาที่ท้าทายอย่างหนึ่งของการทำการประมวลผลภาษาธรรมชาติ (NLP) คือการวิเคราะห์ไวยากรณ์ของประโยคที่มีความยาวมาก ดังนั้นจึงเสนอให้นำ Conditional Random Field และ Categorial Grammar มาใช้ในการแบ่งประโยคให้เป็นกลุ่มคำย่อยๆที่มีความหมาย (phrase) จากผลการทดลอง สามารถแบ่งประโยคเป็นกลุ่มคำได้ถูกต้องเป็นที่น่าพอใจถึง 74.17% ยิ่งไปกว่านั้น กลุ่มคำที่ได้นั้นประมาณ 50% สามารถนำไปเข้าสู่กระบวนการวิเคราะห์ไวยากรณ์อัตโนมัติและได้เป็นต้นไม้ไวยากรณ์ที่ถูกต้อง และ 58.65% ของ implicit sentential NP ถูกระบุได้อย่างถูกต้อง</ul></ul>
<ul><ul><li>งานวิจัยนำเสนอ method</ul></ul>

<ul><li>A Syntactic Resource for Thai: CG Treebank
<ul><li>งานวิจัยนี้เสนอThai syntactic resource ซึ่งในที่นี้คือ Categorial Grammar Treebank  เนื่องจากในปัจจุบันสำหรับภาษาไทยนั้นมีทรัพยากรด้านไวยากรณ์(syntactic resource) อยู่น้อยมาก ผู้วิจัยจึงได้สร้างคลังต้นไม้ไวยากรณ์ ซึ่งใช้ categorial grammar เป็นไวยากรณ์ โดยนำคลังข้อมูลของประโยคภาษาไทยมาประมวลผลเพื่อให้ได้ต้นไม้ไวยากรณ์ โดยใช้ categorial grammar dictionary และ LALR parser ในการประมวลผล ผลที่ได้คือ CG Treebank ที่ประกอบด้วย ต้นไม้ไวยากรณ์ 50,346 ต้น จาก 27,239 คำพูด โดยต้นไม้ที่ได้สามารถแบ่งได้ 3 รูปแบบตามหลักไวยากรณ์ โดยมีต้นไม้ประโยค 12,876 ต้น ต้นไม้นามวลี 13,728 ต้น และ ต้นไม้กริยาวลี 18,324 ต้น ค่าเฉลี่ยของต้นไม้ต่อคำพูดคือ 1.85
</ul></ul>
<ul><ul><li>งานวิจัยเสนอ standard (ของการใช้ categorial grammar กับภาษาไทย)</ul></ul>

<ul><li>Categorial-Grammar-Based Phrase Break Prediction
<ul><li>ชนิดของคำได้ถูกใช้เป็นลักษณะพิเศษหลักในการทำนายการแบ่งวรรคตอนสำหรับการสังเคราะห์เสียงกันอย่างแพร่หลาย แต่ชนิดของคำไม่ได้แสดงถึงลักษณะทางไวยากรณ์ที่เหมาะสมและจำเป็นสำหรับการทำนายการแบ่งวรรคตอน ดังนั้นแทนที่จะใช้ชนิดของคำผู้วิจัยได้เสนอให้ใช้ Categorial Grammar ซึ่งสามารถครอบคลุมและแสดงลักษณะทางไวยากรณ์ของภาษาไทยได้ดี เป็นลักษณะพิเศษหลักในการทำนายการแบ่งวรรคตอน ประสิทธิภาพของการใช้ Categorial Grammar, ชนิดของคำ, Categorial Grammar แบบลดทอน และ ชนิดของคำแบบลดทอนเป็นลักษณะพิเศษหลักได้ถูกเปรียบเทียบโดยใช้ classification and regression tree เป็น learning method ผลจากการทดลองคือ การใช้ Categorial Grammar เป็นลักษณะพิเศษหลักให้ผลที่ดีที่สุดโดยมี Precision = 73.15%, Recall = 96.96%, F-measure = 83.39%
</ul></ul>
<ul><ul><li>งานวิจัยเสนอ method </ul></ul>

</FONT>