วันพุธที่ 22 กรกฎาคม พ.ศ. 2552

Semantic Similarity Retrieval Model (SSRM)

การหาความสำคัญของเอกสารจะดูที่น้ำหนักของคำที่สนใจ การหาน้ำหนักของคำจะใช้ทฤษฎี tf*idf และการหาค่าความคล้ายของสองเอกสารจะใช้ทฤษฎีของ Vector Space Model (VSM) คือ Cosine Similarity ที่จะได้ผลดีกว่าวิธี Inner Product
อย่างไรก็ตามในวิธีที่กล่าวมาข้างต้น จะสามารถค้นหาความคล้ายของเอกสารได้ก็ต่อเมื่อเอกสารนั้นใช้คำคำเดียวกัน
ในหลายๆเอกสารที่มีความคล้ายกัน แต่ใช้คำคนล่ะคำกัน VSM จะไม่สามารถหาความคล้ายกันของเอกสารได้ เช่น คำว่า car กับ automobile

Semantic Similarity Retrieval Model (SSRM) คือทฤษฎีที่จะหาความคล้ายกันของเอกสารที่ใช้คำคนล่ะคำกันโดยมีขั้นตอนดังนี้

1. Term Re-Weighting การหาน้ำหนักของคำใหม่ : น้ำหนักของคำ qi ของแต่ละการค้นหา i จะถูกปรับโดยดูความสัมพันธ์กับคำที่มีความหมายคล้ายกับคำ j ในเวคเตอร์เดียวกัน



โดยที่ t คือ threshold ที่ผู้ใช้กำหนดขึ้น (ในที่นี้ t = 0.8) สูตรนี้ใช้เฉพาะคำที่มีคำที่คล้ายกันกับคำที่ค้นหา เช่น railway, train, metro ส่วนคำที่ไม่คล้ายกัน ไม่มีการเปลี่ยนแปลง เช่น train, house

2. Term Expansion การขยายคำศัพท์ : ข้อแรก เลือกคำ synonym หลังจากนั้นเลือกคำใน hyponyms และ hypernyms ที่มีความคล้ายกับคำที่สนใจ รูปภาพแสดงถึง hypernyms และ hyponyms ของคำ



โดยที่แต่ล่ะคำจะค้นหาจาก WordNet tree ของคำคำนั้น คำที่มี threshold มากกว่า 0.9 จะถูกนำมาเพิ่มในการค้นหา คำที่นำมาเพิ่มอาจจะอยู่สูงกว่า หรือต่ำกว่ามากกว่า 1 ขั้นของคำคำนั้นก็ได้



โดยที่ n คือจำนวนของ hyponym ของแต่ละคำ j และสำหรับ hypernyms n มีค่า = 1
คำที่อยู่ในคำค้นหาอยู่แล้วอาจจะกลายเป็นคำใหม่สำหรับคำอื่น และคำหนึ่งคำ อาจจะถูกเพิ่มมากกว่าหนึ่งครั้งได้

3. Document Similarity การหาความคล้ายของเอกสาร : การหาความคล้ายของเอกสารใช้สูตรดังนี้



โดยที่ i และ j คือคำที่สนใจและคำในเอกสารตามลำดับ คำที่สนใจจะถูกคำนวนน้ำหนักใหม่ และถูกขยายคำ โดยที่คำในเอกสารจะไม่ต้องทำอะไรนอกจากหาน้ำหนักโดยใช้สูตร tf*idf เท่านั้น ผลการค้นหาจะมีค่าระหว่าง 0 กับ 1

ที่มา : G. Varelas, E. Voutsakis, P. Raftopoulou, E. Petrakis, E. Milios, “Semantic similarity methods in wordNet and their application to information retrieval on the web”, Proceedings of the 7th annual ACM international workshop on Web information and data management (WIDM’05), November 5, 2005 Bermen, Germany.

ไม่มีความคิดเห็น:

แสดงความคิดเห็น