วันพุธที่ 20 เมษายน พ.ศ. 2554

ขั้นตอน/วิธีการค้นหาข้อมูล

การสืบค้นข้อมูลสารสนเทศ
ความหมายของ search engine
Search Engine คือ เครื่องมือการค้นหาข้อมูลผ่านอินเตอร์เน็ต ที่ทุกคนสามารถหาข้อมูลผ่านอินเตอร์เน็ตก็ได้ โดยกรอก ข้อมูลที่ต้องการค้นหา หรือ Keyword (คีย์เวิร์ด) เข้าไปที่ช่อง Search Box แล้วกด Enter แค่นี้ข้อมูลที่เราค้นหาก็จะถูกแสดงออกมาอย่างมากมาย เพื่อให้เราเลือกข้อมูลตรงกับความต้องการของเรามากที่สุด โดยลักษณะการแสดงผลของ Search Engine นั้นจะทำการแสดงผลแบบ เรียงอันดับ Search Results ผ่านหน้าจอคอมพิวเตอร์ของเรา
ประเภทของ search engine
1.  แบบอาศัยการเก็บข้อมูลเป็นหลัก (Crawler-Based Search Engine)
                หลักการนี้เป็นการใช้เครื่องมือที่เรียกว่า Crawler-Based Search Engine เป็นเครื่องมือที่ทำการบันทึกและเก็บข้อมูลเป็นหลัก ซึ่งเป็นประเภท Search Engine ที่ได้รับความนิยมมากที่สุดในปัจจุบันซึ่งการทำงานประเภทนี้ จะใช้โปรแกรมตัวเล็ก ๆ ที่เรียกว่า Web Crawler หรือ Spider หรือที่เรียกอีกอย่างว่า Search Engine Robots หรือที่เรียกสั้น ๆ ว่า บอท ในภาษาไทย www คือเครือข่ายใยแมงมุม ตัวโปรแกรมเล็ก ๆ ตัวนี้ก็คือแมงมุมนั่นเอง โดยเจ้าแมงมุมตัวนี้จะทำการไต่ไปยังเว็บไซต์ต่าง ๆ ทั่วโลกอินเตอร์เน็ต โดยอาศัยไต่ไปตาม URL ต่าง ๆ ที่มีการเชื่อมโยงอยู่ในแต่ละเพจ แล้วทำการ Spider กวาดข้อมูลที่จำเป็นต่าง ๆ (ขึ้นอยู่กับ Search Engine แต่ละที่ว่าต้องการเก็บรวบรวมข้อมูลอะไรบ้าง) แล้วเก็บลงฐานข้อมูล การใช้โปรแกรมกวาดข้อมูลแบบนี้ จึงทำให้ข้อมูลที่ได้มีความแม่นยำ และสามารถเก็บรวบรวมข้อมูลได้เร็วมาก Search Engine ที่เป็นประเภทนี้ เช่น Google Yahoo MSN
                2. แบบสารบัญเว็บไซต์ (Web Directory)
                Search Engine ที่เป็นแบบนี้มีอยู่หลายเว็บไซต์มาก ๆ ที่ดังที่สุดในเมืองไทย ที่เอ่ยออกไปใครใครคงต้องรู้จัก นั้นก็คือที่สารบัญเว็บของ Sanook.com ซึ่งหลาย ๆ คนคงเคยเข้าไปใช้บริการ หรืออย่างที่ Truehits.com เป็นต้น สิ่งที่เราจะสังเกตเห็นจาก Search Engine ประเภทนี้ก็คือ ลักษณะของการจัดเก็บข้อมูลที่แสดงให้เราเห็นทั้งหมด ว่ามีเว็บอะไรบ้างอยู่ในฐานข้อมูล ซึ่งแตกต่างจากประเภทแรก ที่หากคุณไม่ค้นหาโดยใช้คำค้น หรือ Keyword แล้ว คุณจะมีทางทราบเลยว่ามีเว็บไซต์อะไรอยู่บ้าง และมีเว็บอยู่เท่าไหร่ แบบสารบัญเว็บไซต์ จะแสดงข้อมูลที่รวบรวมเว็บไซต์ที่มีทั้งหมดในฐานข้อมูล และจะแบ่งเป็นหมวดหมู่ และอาจจะมีหมวดหมู่ย่อย ซึ่งผู้ค้นหาข้อมูลสามารถคลิกเข้าไปดูได้ หลักการทำงานแบบนี้ จะอาศัยการเพิ่มข้อมูลจากเจ้าของเว็บไซต์ต่าง ๆ ที่ต้องการประชาสัมพันธ์เว็บ หรืออาจใช้เจ้าหน้าที่ที่ดูแลส่วน Search Engine เป็นผู้หาข้อมูลเว็บไซต์มาเพิ่มในฐานข้อมูล ซึ่งข้อมูลในส่วนของสารบัญเว็บไซต์จะเน้นในด้านความถูกต้องของฐานข้อมูล ซึ่งข้อมูลเว็บไซต์ที่ถูกเพิ่มเข้ามาจะถูกตรวจสอบและแก้ไขจากผู้ดูแล
                3. แบบอ้างอิงในคำสั่ง Meta Tag (Meta Search Engine )
                Search Engine ประเภทนี้จะอาศัยข้อมูลใน Meta tag ซึ่งเป็นส่วนของข้อมูลที่อยู่ในแท็ก HEAD ของภาษา HTML ซึ่งข้อมูลในส่วนนี้ จะเป็นส่วนที่ให้ข้อมูลกับ Search Engine Robots
Search Engine ประเภทนี้ไม่มีฐานข้อมูลของตนเอง แต่จะอาศัยข้อมูลจาก Search Engine Index Server ของที่อื่น ๆ ซึ่งข้อมูลจะมาจาก Server หลาย ๆ ที่ ดังนั้น จึงมักได้ผลลัพธ์จากการค้นหาที่ไม่แม่นยำ ตัวอย่างเว็บที่ใช้งานประเภทนี้ metacrawler.com


เทคนิคการสืบค้นข้อมูล
               เทคนิคการสืบค้นสารสนเทศผ่านระบบออนไลน์
                ปัจจุบันสารสนเทศที่จัดเก็บผ่านระบบออนไลน์มีมากขึ้นตามกระแสของเทคโนโลยีที่เปลี่ยนไป ทรัพยากรสารสนเทศต่างๆ ไม่ว่าจะเป็น หนังสือ วารสาร หรือ สื่ออิเล็กทรอนิกส์อื่นๆ ก็ได้รับการจัดเก็บแบบออนไลน์ทั้งสิ้น   การสืบค้นสารสนเทศจึงจำเป็นต้องมีเทคนิคเพื่อให้ได้ข้อมูลที่กระชับ ตรงกับความต้องการมากขึ้น ดังนั้นเราจึงขอเสนอเทคนิคการสืบค้นสารสนเทศที่ทำให้การค้นหามีประสิทธิภาพ  ได้ข้อมูลตรงตามความต้องการมากขึ้น เรามาดูกันเลยว่ามีแนวทางการสืบค้นอะไรกันบ้าง
1. สิ่งที่กำลังค้นคืออะไร ?
                นับว่าเป็นสิ่งสำคัญมากเนื่องจากการสืบค้นสารสนเทศผ่านระบบออนไลน์จำเป็นต้องทราบจุดมุ่งหมายเพื่อให้ได้มาซึ่งสารสนเทศที่ต้องการ ถ้าเราทราบความต้องการแล้วให้เราทำการลิสต์คำสำคัญต่างๆ ที่เกี่ยวข้องกับเนื้อหาที่เราจะทำออกมาก่อนให้มากที่สุด เช่น ถ้าเราต้องการจะทำงานวิจัยเรื่อง “I/O Technology in PC based on SUN SPARC, IBM RISC, Intel Itanium Series”  เมือไรได้เป้าหมายและเรื่องที่เราจะสืบค้นมา สิ่งที่ต้องทำ คือ ให้ลิสต์คำสำคัญที่เกี่ยวข้องกับหัวข้อที่ต้องการสืบค้นให้ได้มากที่สุด เช่น Input Output Technology, SUN SPARC Architecture, RISC IBM, Reduce Instruction Set  IBM, Intel Itanium Series architecture เป็นต้น
2. แหล่งสารสนเทศตามสาขาที่เราต้องการมีอะไรบ้าง ?
                เมื่อได้คำที่เกี่ยวข้องกับเรื่องที่เราต้องการจะค้นแล้ว ต่อไปให้ทำการสำรวจแหล่งข้อมูลที่เกี่ยวข้องกับสขาที่เราค้น เช่น ถ้าเป็นด้านเทคโนโลยีสารสนเทศ ก็จะใช้ ฐานข้อมูล ACM, ฐานข้อมูล IEEE, ฐานข้อมูล Emerald, ฐานข้อมูล Wiley, ฐานข้อมูล NetLibrary เป็นต้น หรือ จะเป็น Search Engine  อย่าง Google และตัวอื่นๆก็ได้ แต่การค้นหาจาก Search Engine จะทำให้ได้ข้อมูลที่เป็นขยะมาก ดังนั้นควรจะใช้ฐานข้อมูลที่ห้องสมุดบอกรับดีกว่าเนื่องจากให้ข้อมูลที่น่าเชื่อถือและข้อมูลทั้งหมดผ่านการตรวจสอบโดยคณะกรรมการผู้เชี่ยวชาญของแต่ละสาขา
3. ดำเนินการสืบค้นข้อมูลตามหัวข้อที่ต้องการ
               
สำหรับเทคนิคการสืบค้นสารสนเทศผ่านฐานข้อมูลออนไลน์มีดังนี้
                1. การสืบค้นอย่างรวดเร็ว (ฺBasic Search / Quick Search)
                                เป็นการสืบค้นอย่างรวดเร็ว  เอาข้อมูลกว้างๆที่เกี่ยวกับเรื่องที่เรากำลังสืบค้น อาจจะค้นหา              จาก ชื่อเรื่อง ชื่อผู้แต่ง หัวเรื่อง คำสำคัญ เป็นต้น
                2. การสืบค้นขั้นสูง (Advanced Search)
เป็นการสืบค้นข้อมูลที่เจาะจงมากขึ้น เช่น เจาะจงช่วงที่ต้องการ เจาะจงเฉพาะสิ่งพิมพ์ที่ต้องการ หรือ การค้นแบบผสมคำค้น เป็นต้น ซึ่งเทคนิคการสืบค้นแบบผสมคำค้นหรือ Boolean เป็นเทคนิคที่ฐานข้อมูลมีทุกฐาน ซึ่งมีรายลเอียดดังนี้
                                การค้นแบบผสมคำค้นหรือ Boolean
                                เป็นการผสมคำค้นกับตัวเชื่อมต่างๆ เช่น
                                                - AND : ผลการค้นจะปรากฏคำค้นที่ใส่ไปทั้งสองคำ
                                ตัวอย่าง: Input Technology AND IBM RISC
                                ผลลัพธ์ที่ได้ : ผลการค้นจะปรากฏคำค้นที่ใส่ไปทั้งสองคำ เช่น  Input Technology on  IBM  RISC
                                                - OR  : ผลการค้นจะปรากฏคำค้นที่ใส่ไปคำไดคำหนึ่งเท่านั้น
                                ตัวอย่าง : SPARC Architecture OR Output Technology
                                ผลลัพธ์ที่ได้ :  ผลการค้นจะปรากฏคำค้นที่ใส่คำใดคำหนึ่ง หรือ ทั้งสองคำ  เช่น Output Technology Architecture based on Intel Centrino หรืออาจจะได้ Output Technology based on SPARC Architecture in Database Query
                                                - NOT : ตัดคำค้นที่ไม่ต้องการแสดงออกไป ทำให้ผลการค้นแคบลง เฉพาะเจาะจงมากขึ้น
                                ตัวอย่าง (ก่อนใช้ NOT) SPARC Architecture AND Output Technology
                                ผลลัพธ์ที่ได้ : Output Technology based on SPARC Architecture in Database Query
                                ตัวอย่าง (หลังใช้ NOT) :  (SPARC Architecture AND Output Technology)  NOT  “Database Query”
                                ผลลัพธ์ที่ได้ : Output Technology based on SPARC Architecture
3. เทคนิคเพิ่มเติม
- การใช้ “-------“  จะมีประโยชน์ตอนที่เราต้องการค้นหาคำที่เป็นกลุ่มคำ แต่ต้องการให้ระบบ
ตีความคำนั้นเป็นชื่อเดียวกัน เช่น “Database Query” ก็จะหมายถึง Database Query ไม่ใช่ Database และ Query
- การใช้วงเล็บ (----)  จะมีประโยชน์เพื่อควบคุมผลการค้นให้แสดงตามลำดับในกรณีที่ใช้
คำเชื่อมมากๆและต้องการเงื่อนไขที่เจาะจงมากขึ้น เช่น (SPARC Architecture AND Output Technology) NOT “Database Query”  จะหมายความว่า ให้เอาเฉพาะเรื่องที่เกี่ยวข้องกับ SPARC Architecture และ Output Technology แต่ไม่ต้องการเรื่อง Database Query



อ้างอิง : 
    - บุญดี  บุญญากิจและคณะ(2548).การจัดการความรู้…จากทฤษฎีสู่การปฏิบัติ.กรุงเทพ-บริษัทจิรวัฒน์  เอ็กซ์เพรส  จำกัด.
    - ผศ.ดร.ชัชวาล  วงษ์ประเสริฐ(2548).การจัดการสารสนเทศเบื้องต้น.กรุงเทพ-บริษัทเอ็กซเปอร์เน็ต  จำกัด.
    - Mining the World Wide Web : an information search approach /( George Chang … [et al.]. 2001 : 8)

ไม่มีความคิดเห็น:

แสดงความคิดเห็น