cs563

วิชา 01418563
การพิสูจน์ K-means การแก้ปัญหาของ ตัวแปรในการประมวลผล k-means เช่น number of cluster/ seed การวัดประสิทธิผล internal/External || - ประเด็นสำคัญ relevance feedback ทำการปรับคำขออย่างไร และใช้ข้อมูลจากที่ใหน - Query Expansion มีกี่รุปแบบ - วิธีการหา Co-occurrence statistic - การประเมินประสิทธิผล relevance feedback ทำอย่างไร ||
 * วันที่ || ประเด็น ||
 * || [[file:cs563-Total.pdf|คะแนนรวมท้งหมด]] ||
 * || โจทย์เพิ่มเติม กำหนดค่า similarity (ท้ายหน้านี้) แสดงวิธีการจัดกลุ่มเอกสาร HAC ครบทุกแบบ ||
 * 1/9/2012 || จบ cluster ค้าง RI
 * 25/8/2012 || - จบ Relevance feedback / Query Expansion
 * [[file:chulee/cs563-score.pdf|คะแนนสอบกลางภาค]]
 * ส่งเงื่อนไข ของโครงงานพร้อมคาดหวังเกรดที่ต้องการ หวังว่านิสิตคงไม่คาดหวังเกินกว่าคะแนนสอบที่ได้ ส่งรายงานของโครงงานในระยะที่ 1 จนถึงวันที่ 25 ส.ค. ช้าไปกว่านี้จะไม่รับ และถือว่าตัดเกรดตามเกณฑ์ที่กำหนด
 * รายละเอียดโครงงาน

วัตถุประสงค์ 1. ข้อกำหนดของโครงงานจะกำหนดให้เสริมกับการทำวิทยานิพนธ์ของนิสิตมากที่สุด แต่ต้องตอบโจทย์ของการค้นค้นสารสนเทศด้วย 2. นิสิตต้องศึกษาบทความ หรือ ข้อมูลที่อาจารย์ อย่างไรก็ตาม นิสิตสามารถเพิ่มเติมเนื้อหา ข้อมูลอื้นๆ ได้ 3. เนื้อหาของโครงงานและปริมาณงาน จะกำหนดตามระดับชั้นปีของนิสิต ข้อกำหนดนี้อาจมีการเปลี่ยนแปลงเพื่อความเหมาะสม จึงขอให้นิสิตติดตาม กำหนดการนำเสนอจะแจ้งอีกครั้ง คะแนนโครงการจะให้เป็น 30 ทั้งหมด รายละเอียดโครงงาน นายสุชาติ วิจารณ์ปรีชา (Image retrieval) นิสิต ปี 1 นางสาวกนกวรรณ รุ่งเรืองศุภรัตน์ (ยังไม่ได้แจ้งหัวเรื่องที่ต้องการศึกษา) นายอรรถพล ฤทธิโรจน์ นางสาวปีติชา แผ้วชมพู Image Analysis นางสาวภาวิดา ยะโสวงษ์ (Image Analysis with clustering) นายกฤษณ์ ก้อนแก้ว
 * ค้าหาผลงาน และศึกษาหรือทำซ้ำตามเนื้อหาในงานดังกล่าว Content-Based Image Retrieval Systems: A Survey (ถาม google และส่งต้นฉบับมาให้อาจารย์ตรวจสอบก่อน) และค้นหาอีก 2 ผลงาน เขียนรายงานพร้อมนำเสนอระบบที่ศึกษาอย่างน้อย 3 ระบบ
 * ให้พัฒนาระบบสืบค้น โดยใช้ข้อมูลพระอภัยมณี ในการพัฒนาใช้ฐานข้อมูล mysQL มีระบบถ่วงน้ำหนัก และ การจัดลำดับเอกสารตามระบบถ่วง นน. ส่วนเอกสารทางวิชาการ ให้ศึกษาเปรียบเทียบกับ google
 * 1) อ่านและแปลงาน http://ciir-publications.cs.umass.edu/pub/web/getpdf.php?id=1022 และอ่านหนังสือในตำราเพิ่มเติม เพื่อสรุปข้อผิดพลาดกรณีที่นำ oCR ไปใช้ และการแก้ปัญหา
 * 2) หา open source OCR มาทดสอบกับข้อมูลที่ scan ผ่านเครื่อง
 * 3) เขียนรายงานหาประสิทธิผล
 * 4) ผลการอ่านและแปลงาน Input – Text only –ภาษาของประเทศ Ten
 * พัฒนาระบบค้นคืนภาพถ่าย (เน้นเฉพาะภาพถ่ายทางการแพทย์) โดยหา feature ที่เหมาะสม และใช้ clustering ในการจัดกลุ่มภาพ แหล่งข้อมูลเพิ่มเติม
 * 1) ศึกษาและ implement ระบบ จาก http://www.cs.cityu.edu.hk/~borbor/imager.html
 * 2) http://www.cs.nyu.edu/courses/fall02/G22.3033-008/syllabus.html
 * เน้นระบบค้นคืน – indexing ทำอย่างไร ใช้ feature ในการทำ เช่น keyword หรือ ภาพ (แปลงภาพไปเป็นอะไร grey scale สี)
 * Query operator – keyword, picture
 * การส่งผลลัพธ์คืน – cluster ปัจจัย คือ เวลา online/offline
 * เน้น Research +Clustering (ระยะของการเป็นโรค)
 * 1) http://www.ims.uni-stuttgart.de/ir/assign7.pdf (ทำข้อสอง)
 * 2) ให้นำภาพถ่ายมาวิเคราะห์ถ่วงนำหนัก เพื่อให้ band ที่สำคัญ
 * 3) ศึกษาการค้นคืนภาพถ่ายดาวเทียมว่าควรค้นคืนในรูปแบบใด (ตัวอย่างการค้นคืนจาก smms ที่ให้บริการมีปัญหาอะไรบ้าง และวิธีการที่เหมาะสมควรเป็นอย่างไร
 * 1) http://www.ims.uni-stuttgart.de/ir/assign12.pdf (ทำทั้งสองข้อ) และ ศึกษา และ implement โดยศึกษาข้อมูลจาก http://www.lemurproject.org/

นางสาวอรอุมา เทศประสิทธิ์ (Text Summarization)
 * 1) http://nlp.stanford.edu/IR-book/html/htmledition/ponte-and-crofts-experiments-1.html
 * 2) ค้นหาการย่อความภาษาไทยทั้งหมด สรุปเขียนเป็นรายงาน
 * 3) นำเสนอหลักการใหม่ในการย่อความภาษาไทย และเขียนเป็นรายงานเชิงวิชาการ ขอเป็นภาษาอังกฤษ


 * || a || b || c || d || e ||
 * a || 1 || 0.4 || 0.3 || 0.2 || 0.1 ||
 * b ||  || 1 || 0.8 || 0.2 || 0.1 ||
 * c ||  ||   || 1 || 0.5 || 0.4 ||
 * d ||  ||   ||   || 1 || 0.7 ||
 * e ||  ||   ||   ||   || 1 ||