วันพุธที่ 22 กรกฎาคม พ.ศ. 2552

WordNet และ Ontology

WordNet คือฐานข้อมูลที่รวบรวมคำศัพท์ภาษาอังกฤษไว้ แต่ไม่ได้ใช้งานในรูปแบบ Dictionary อย่างเดียว คือไม่ได้สนใจแค่ว่าคำคำนี้แปลว่าอะไร แต่ WordNet จะเน้นไปที่ความสัมพันธ์ระหว่างคำศัพท์ โดยสามารถถือว่า WordNet เป็น Ontology อันหนึ่งที่รวบรวมคำศัพท์ไว้มากกว่า 100,000 คำ

WordNet ประกอบไปด้วยคำนาม (Nouns), คำกริยา (Verbs), คำคุณศัพท์ (Adjectives), และคำวิเศษณ์ (Adverbs) โดยคำที่มีความสัมพันธ์เกี่ยวข้องกันจะนำมาเกี่ยวโยงกันด้วย synonym sets (synsets) โดยข้อมูลใน synsets จะเกี่ยวโยงกันด้วย senses คำหนึ่งคำที่มีความหมายมากกว่าหนึ่งความหมาย จะมี senses มากกว่าหนึ่ง senses นอกจากนี้ WordNet ยังมีความสัมพันธ์ระหว่างคำนอกเหนือจาก synonym อีก 2 รูปแบบ คือ ความสัมพันธ์แบบ Is-A หรือเรียกว่า Hyponym และ Hypernym และความสัมพันธ์แบบ Part-Of หรือเรียกว่า Meronym และ Holonym

ตัวอย่างความสัมพันธ์แบบ Is-A
สุนัข เป็น Hypernym ของ ดัลเมเชี่ยน
ดัลเมเชี่ยน เป็น Hyponym ของสุนัข
ข้อสังเกตหรือวิธีทำความเข้าใจแบบง่ายๆ Hypernym มีรากศัพท์คือ Hyper แปลว่าเหนือ
เพราะฉะนั้น คำ ก. Hypernym ของคำ. ข แสดงว่าคำ ก. อยู่เหนือกว่าคำ ข. หรือคำ ก. มีความหมายกว้างๆ แต่คำ ข. มีความหมายแบบเฉพาะ

ตัวอย่างความสัมพันธ์แบบ Part-Of
ตึก เป็น holonym ของหน้าต่าง
หน้าต่างเป็น meronym ของตึก
ข้อสังเกตหรือวิธีทำความเข้าใจแบบง่ายๆ meronym คล้ายกับคำว่า member แปลว่าสมาชิก
เพราะฉะนั้น คำ ก. เป็น meronym ของ คำ ข. แสดงว่า คำ ก. เป็นสมาชิกหรือเป็นส่วนประกอบของคำ ข.

คำที่มีความหมายคล้ายกัน หรือ Semantic Similarity จะสนใจในส่วนของ synset และนอกจากนั้น ยังต้องเอา Hypernym และ Hyponym มาทำการวิจัยควบคู่ไปด้วย นอกจากนั้น การค้นหาคำที่มีความหมายคล้ายกันจะสนใจเฉพาะ Noun และ Verb เท่านั้น

การค้นหาคำที่มีความหมายคล้ายกัน สามารถแบ่งได้เป็น 4 วิธีใหญ่ๆได้แก่
1. Edge Counting Methods วัดคำศัพท์ 2 คำ โดยใช้ความยาวของ path ที่เชื่อมต่อแต่ละคำ และตำแหน่งของคำในกลุ่ม
2. Information Content Methods วัดความแตกต่างของเนื้อหาของสองคำ โดยใช้ความเป็นไปได้ที่จะเกิดขึ้นในเอกสาร
3. Feature Based Methods วัดความคล้ายกันของคำสองคำ โดยดูที่ properties ของคำ
4. Hybrid Methods รวมเอาวิธีทั้งหมดเข้าด้วยกัน

วิธีการหาความคล้ายของคำโดยส่วนมากจะค้นหาจาก Ontology ซึ่งสามารถแบ่งได้ 2 ประเภทคือ
1. Single Ontology คือ คำสองคำที่ต้องการหามาจาก Ontology เดียวกัน ใช้วิธี Edge Counting Methods และ Information Content Methods
2. Cross Ontology คือ คำสองคำที่ต้องการหามาจาก Ontology มากกว่าหนึ่ง Ontology ใช้วิธี Feature Based Methods และ Hybrid Methods

ที่มา : G. Varelas, E. Voutsakis, P. Raftopoulou, E. Petrakis, E. Milios, “Semantic similarity methods in wordNet and their application to information retrieval on the web”, Proceedings of the 7th annual ACM international workshop on Web information and data management (WIDM’05), November 5, 2005 Bermen, Germany.

1 ความคิดเห็น:

  1. พออ่านที่แรกไม่รู้ว่า ดัลเมเชี่ยน(Dalmatian) ต้องเอาไปแปล มันคือชื่อสุนัขพันธ์หนึ่ง WordNet 2.0สามารถใช้ได้ที่โปรแกรม Babylon ฟรี
    ขอบคุณมากๆ สำหรับความรู้

    ตอบลบ