KM-Tomang: ขั้นตอน/วิธีการค้นหาข้อมูล

การสืบค้นข้อมูลสารสนเทศ

ความหมายของ search engine

Search Engine คือ เครื่องมือการค้นหาข้อมูลผ่านอินเตอร์เน็ต ที่ทุกคนสามารถหาข้อมูลผ่านอินเตอร์เน็ตก็ได้ โดยกรอก ข้อมูลที่ต้องการค้นหา หรือ Keyword (คีย์เวิร์ด) เข้าไปที่ช่อง Search Box แล้วกด Enter แค่นี้ข้อมูลที่เราค้นหาก็จะถูกแสดงออกมาอย่างมากมาย เพื่อให้เราเลือกข้อมูลตรงกับความต้องการของเรามากที่สุด โดยลักษณะการแสดงผลของ Search Engine นั้นจะทำการแสดงผลแบบ เรียงอันดับ Search Results ผ่านหน้าจอคอมพิวเตอร์ของเรา
ประเภทของ search engine

1. แบบอาศัยการเก็บข้อมูลเป็นหลัก (Crawler-Based Search Engine)

หลักการนี้เป็นการใช้เครื่องมือที่เรียกว่า Crawler-Based Search Engine เป็นเครื่องมือที่ทำการบันทึกและเก็บข้อมูลเป็นหลัก ซึ่งเป็นประเภท Search Engine ที่ได้รับความนิยมมากที่สุดในปัจจุบันซึ่งการทำงานประเภทนี้ จะใช้โปรแกรมตัวเล็ก ๆ ที่เรียกว่า Web Crawler หรือ Spider หรือที่เรียกอีกอย่างว่า Search Engine Robots หรือที่เรียกสั้น ๆ ว่า บอท ในภาษาไทย www คือเครือข่ายใยแมงมุม ตัวโปรแกรมเล็ก ๆ ตัวนี้ก็คือแมงมุมนั่นเอง โดยเจ้าแมงมุมตัวนี้จะทำการไต่ไปยังเว็บไซต์ต่าง ๆ ทั่วโลกอินเตอร์เน็ต โดยอาศัยไต่ไปตาม URL ต่าง ๆ ที่มีการเชื่อมโยงอยู่ในแต่ละเพจ แล้วทำการ Spider กวาดข้อมูลที่จำเป็นต่าง ๆ (ขึ้นอยู่กับ Search Engine แต่ละที่ว่าต้องการเก็บรวบรวมข้อมูลอะไรบ้าง) แล้วเก็บลงฐานข้อมูล การใช้โปรแกรมกวาดข้อมูลแบบนี้ จึงทำให้ข้อมูลที่ได้มีความแม่นยำ และสามารถเก็บรวบรวมข้อมูลได้เร็วมาก Search Engine ที่เป็นประเภทนี้ เช่น Google Yahoo MSN

                2. แบบสารบัญเว็บไซต์ (Web Directory)
                Search Engine ที่เป็นแบบนี้มีอยู่หลายเว็บไซต์มาก ๆ ที่ดังที่สุดในเมืองไทย ที่เอ่ยออกไปใครใครคงต้องรู้จัก นั้นก็คือที่สารบัญเว็บของ Sanook.com ซึ่งหลาย ๆ คนคงเคยเข้าไปใช้บริการ หรืออย่างที่ Truehits.com เป็นต้น สิ่งที่เราจะสังเกตเห็นจาก Search Engine ประเภทนี้ก็คือ ลักษณะของการจัดเก็บข้อมูลที่แสดงให้เราเห็นทั้งหมด ว่ามีเว็บอะไรบ้างอยู่ในฐานข้อมูล ซึ่งแตกต่างจากประเภทแรก ที่หากคุณไม่ค้นหาโดยใช้คำค้น หรือ Keyword แล้ว คุณจะมีทางทราบเลยว่ามีเว็บไซต์อะไรอยู่บ้าง และมีเว็บอยู่เท่าไหร่ แบบสารบัญเว็บไซต์ จะแสดงข้อมูลที่รวบรวมเว็บไซต์ที่มีทั้งหมดในฐานข้อมูล และจะแบ่งเป็นหมวดหมู่ และอาจจะมีหมวดหมู่ย่อย ซึ่งผู้ค้นหาข้อมูลสามารถคลิกเข้าไปดูได้ หลักการทำงานแบบนี้ จะอาศัยการเพิ่มข้อมูลจากเจ้าของเว็บไซต์ต่าง ๆ ที่ต้องการประชาสัมพันธ์เว็บ หรืออาจใช้เจ้าหน้าที่ที่ดูแลส่วน Search Engine เป็นผู้หาข้อมูลเว็บไซต์มาเพิ่มในฐานข้อมูล ซึ่งข้อมูลในส่วนของสารบัญเว็บไซต์จะเน้นในด้านความถูกต้องของฐานข้อมูล ซึ่งข้อมูลเว็บไซต์ที่ถูกเพิ่มเข้ามาจะถูกตรวจสอบและแก้ไขจากผู้ดูแล
                3. แบบอ้างอิงในคำสั่ง Meta Tag (Meta Search Engine )
                Search Engine ประเภทนี้จะอาศัยข้อมูลใน Meta tag ซึ่งเป็นส่วนของข้อมูลที่อยู่ในแท็ก HEAD ของภาษา HTML ซึ่งข้อมูลในส่วนนี้ จะเป็นส่วนที่ให้ข้อมูลกับ Search Engine Robots
Search Engine ประเภทนี้ไม่มีฐานข้อมูลของตนเอง แต่จะอาศัยข้อมูลจาก Search Engine Index Server ของที่อื่น ๆ ซึ่งข้อมูลจะมาจาก Server หลาย ๆ ที่ ดังนั้น จึงมักได้ผลลัพธ์จากการค้นหาที่ไม่แม่นยำ ตัวอย่างเว็บที่ใช้งานประเภทนี้ metacrawler.com

เทคนิคการสืบค้นข้อมูล
     เทคนิคการสืบค้นสารสนเทศผ่านระบบออนไลน์

ปัจจุบันสารสนเทศที่จัดเก็บผ่านระบบออนไลน์มีมากขึ้นตามกระแสของเทคโนโลยีที่เปลี่ยนไป ทรัพยากรสารสนเทศต่างๆ ไม่ว่าจะเป็น หนังสือ วารสาร หรือ สื่ออิเล็กทรอนิกส์อื่นๆ ก็ได้รับการจัดเก็บแบบออนไลน์ทั้งสิ้น การสืบค้นสารสนเทศจึงจำเป็นต้องมีเทคนิคเพื่อให้ได้ข้อมูลที่กระชับ ตรงกับความต้องการมากขึ้น ดังนั้นเราจึงขอเสนอเทคนิคการสืบค้นสารสนเทศที่ทำให้การค้นหามีประสิทธิภาพ ได้ข้อมูลตรงตามความต้องการมากขึ้น เรามาดูกันเลยว่ามีแนวทางการสืบค้นอะไรกันบ้าง

1. สิ่งที่กำลังค้นคืออะไร ?

นับว่าเป็นสิ่งสำคัญมากเนื่องจากการสืบค้นสารสนเทศผ่านระบบออนไลน์จำเป็นต้องทราบจุดมุ่งหมายเพื่อให้ได้มาซึ่งสารสนเทศที่ต้องการ ถ้าเราทราบความต้องการแล้วให้เราทำการลิสต์คำสำคัญต่างๆ ที่เกี่ยวข้องกับเนื้อหาที่เราจะทำออกมาก่อนให้มากที่สุด เช่น ถ้าเราต้องการจะทำงานวิจัยเรื่อง “I/O Technology in PC based on SUN SPARC, IBM RISC, Intel Itanium Series” เมือไรได้เป้าหมายและเรื่องที่เราจะสืบค้นมา สิ่งที่ต้องทำ คือ ให้ลิสต์คำสำคัญที่เกี่ยวข้องกับหัวข้อที่ต้องการสืบค้นให้ได้มากที่สุด เช่น Input Output Technology, SUN SPARC Architecture, RISC IBM, Reduce Instruction Set IBM, Intel Itanium Series architecture เป็นต้น

2. แหล่งสารสนเทศตามสาขาที่เราต้องการมีอะไรบ้าง ?

เมื่อได้คำที่เกี่ยวข้องกับเรื่องที่เราต้องการจะค้นแล้ว ต่อไปให้ทำการสำรวจแหล่งข้อมูลที่เกี่ยวข้องกับสขาที่เราค้น เช่น ถ้าเป็นด้านเทคโนโลยีสารสนเทศ ก็จะใช้ ฐานข้อมูล ACM, ฐานข้อมูล IEEE, ฐานข้อมูล Emerald, ฐานข้อมูล Wiley, ฐานข้อมูล NetLibrary เป็นต้น หรือ จะเป็น Search Engine อย่าง Google และตัวอื่นๆก็ได้ แต่การค้นหาจาก Search Engine จะทำให้ได้ข้อมูลที่เป็นขยะมาก ดังนั้นควรจะใช้ฐานข้อมูลที่ห้องสมุดบอกรับดีกว่าเนื่องจากให้ข้อมูลที่น่าเชื่อถือและข้อมูลทั้งหมดผ่านการตรวจสอบโดยคณะกรรมการผู้เชี่ยวชาญของแต่ละสาขา

3. ดำเนินการสืบค้นข้อมูลตามหัวข้อที่ต้องการ

สำหรับเทคนิคการสืบค้นสารสนเทศผ่านฐานข้อมูลออนไลน์มีดังนี้

1. การสืบค้นอย่างรวดเร็ว (ฺBasic Search / Quick Search)

เป็นการสืบค้นอย่างรวดเร็ว เอาข้อมูลกว้างๆที่เกี่ยวกับเรื่องที่เรากำลังสืบค้น อาจจะค้นหา จาก ชื่อเรื่อง ชื่อผู้แต่ง หัวเรื่อง คำสำคัญ เป็นต้น

2. การสืบค้นขั้นสูง (Advanced Search)

เป็นการสืบค้นข้อมูลที่เจาะจงมากขึ้น เช่น เจาะจงช่วงที่ต้องการ เจาะจงเฉพาะสิ่งพิมพ์ที่ต้องการ หรือ การค้นแบบผสมคำค้น เป็นต้น ซึ่งเทคนิคการสืบค้นแบบผสมคำค้นหรือ Boolean เป็นเทคนิคที่ฐานข้อมูลมีทุกฐาน ซึ่งมีรายลเอียดดังนี้

การค้นแบบผสมคำค้นหรือ Boolean

เป็นการผสมคำค้นกับตัวเชื่อมต่างๆ เช่น

- AND : ผลการค้นจะปรากฏคำค้นที่ใส่ไปทั้งสองคำ

ตัวอย่าง: Input Technology AND IBM RISC

ผลลัพธ์ที่ได้ : ผลการค้นจะปรากฏคำค้นที่ใส่ไปทั้งสองคำ เช่น Input Technology on IBM RISC

- OR : ผลการค้นจะปรากฏคำค้นที่ใส่ไปคำไดคำหนึ่งเท่านั้น

ตัวอย่าง : SPARC Architecture OR Output Technology

ผลลัพธ์ที่ได้ : ผลการค้นจะปรากฏคำค้นที่ใส่คำใดคำหนึ่ง หรือ ทั้งสองคำ เช่น Output Technology Architecture based on Intel Centrino หรืออาจจะได้ Output Technology based on SPARC Architecture in Database Query

- NOT : ตัดคำค้นที่ไม่ต้องการแสดงออกไป ทำให้ผลการค้นแคบลง เฉพาะเจาะจงมากขึ้น

ตัวอย่าง (ก่อนใช้ NOT) : SPARC Architecture AND Output Technology

ผลลัพธ์ที่ได้ : Output Technology based on SPARC Architecture in Database Query

ตัวอย่าง (หลังใช้ NOT) : (SPARC Architecture AND Output Technology) NOT “Database Query”

ผลลัพธ์ที่ได้ : Output Technology based on SPARC Architecture

3. เทคนิคเพิ่มเติม

- การใช้ “-------“ จะมีประโยชน์ตอนที่เราต้องการค้นหาคำที่เป็นกลุ่มคำ แต่ต้องการให้ระบบ

ตีความคำนั้นเป็นชื่อเดียวกัน เช่น “Database Query” ก็จะหมายถึง Database Query ไม่ใช่ Database และ Query

- การใช้วงเล็บ (----) จะมีประโยชน์เพื่อควบคุมผลการค้นให้แสดงตามลำดับในกรณีที่ใช้

คำเชื่อมมากๆและต้องการเงื่อนไขที่เจาะจงมากขึ้น เช่น (SPARC Architecture AND Output Technology) NOT “Database Query” จะหมายความว่า ให้เอาเฉพาะเรื่องที่เกี่ยวข้องกับ SPARC Architecture และ Output Technology แต่ไม่ต้องการเรื่อง Database Query

อ้างอิง :

- บุญดี บุญญากิจและคณะ(2548).การจัดการความรู้…จากทฤษฎีสู่การปฏิบัติ.กรุงเทพ-บริษัทจิรวัฒน์ เอ็กซ์เพรส จำกัด.

- ผศ.ดร.ชัชวาล วงษ์ประเสริฐ(2548).การจัดการสารสนเทศเบื้องต้น.กรุงเทพ-บริษัทเอ็กซเปอร์เน็ต จำกัด.

- Mining the World Wide Web : an information search approach /( George Chang … [et al.]. 2001 : 8)

วันพุธที่ 20 เมษายน พ.ศ. 2554

ขั้นตอน/วิธีการค้นหาข้อมูล

ไม่มีความคิดเห็น:

แสดงความคิดเห็น