เคล็ดลับการค้นหาบนอินเทอร์เน็ต
(gwern.net)-
รวบรวมตั้งแต่พื้นฐานไปจนถึงเคล็ดลับสำคัญในการค้นหาข้อมูลอย่างบทความวิชาการ หน้าเว็บ หนังสือ ฯลฯ บนอินเทอร์เน็ต
-
บทความนี้เขียนโดย Gwern Branwen* ซึ่งผมคิดว่าเป็นเจ้าของเว็บไซต์ส่วนตัวที่ดีที่สุดคนหนึ่ง เท่าที่ผมเคยเห็น ยกมาเพียงบางส่วนเท่านั้น ดังนั้นแนะนำให้ไปอ่านต้นฉบับด้วย
[ ค้นหาบทความวิชาการ ]
-
ไวยากรณ์การค้นหา: ตัวดำเนินการบูลีน, คำสั่งสำคัญของ Google (เครื่องหมายอัญประกาศคู่คือการตรงกันแบบเป๊ะ, เครื่องหมายขีดกลางคือปฏิเสธ/ยกเว้น,
site:คือค้นหาเฉพาะเว็บไซต์) -
ตั้งค่าปุ่มลัดเพื่อค้นหาอย่างรวดเร็ว: AutoHotkey, Quicksilver, XMonad เป็นต้น
-
คีย์ลัดของเว็บเบราว์เซอร์: C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
-
เวลาใช้ Google Scholar ให้ดูแบบ HTML
-
เคล็ดลับการค้นหาชื่อบทความวิชาการ
→ ตัดบางส่วนของชื่อเรื่องออกเพื่อลดผลลัพธ์ หรือใช้ AND/OR และ - เป็นต้น
→ ลองเพิ่ม/ลบ Year ดู..
→ ใช้ช่วงวันที่ของ Google
→ ใส่ site:archive.org เพื่อค้นหาใน Internet Archive
- กรณีที่ยาก
→ การอ้างอิงย้อนกลับ (Reverse Citations): ดู "related articles" และ "cited by" ของ Google Scholar
→ วิทยานิพนธ์ปริญญาโท/เอก ใช้ ProQuest
→ ค้นหารูปภาพย้อนกลับ: ใช้ Google Images, TinEye, Yandex
- เคล็ดลับการค้นหาแยกตามโดเมน
→ Twitter: ถึงจะค้นเจอผ่าน Google ได้เหมือนกัน แต่ถ้ารู้ข้อมูลเพิ่มเติม การค้นหาขั้นสูงของ Twitter ก็ยอดเยี่ยมมาก (from:, to:, since:, until:, near:, url: ..)
→ ศาลรัฐบาลกลางสหรัฐฯ: ต้องสมัคร Pacer เสียเงิน ($0.1/หน้า) แต่ถ้ายอดรวมไม่เกิน $15 จะฟรี และยังมี public mirror ชื่อ Recap ด้วย มีส่วนขยายเบราว์เซอร์ Recap ให้ใช้เช่นกัน
→ ห้องสมุด Wellcome: มีนิตยสาร/หนังสือเก่าเยอะมาก SEO แย่มากจนค้นผ่าน Google ฯลฯ ไม่ค่อยเจอ แต่ควรลองค้นให้ดี
→ นิตยสารเก่า: site:pdf-giant.net , การค้นหาด้านการศึกษาใช้ ERIC ( site:eric.ed.gov )
- วิธีรับมือกับ Paywall
→ ในกรณีหนังสือ/บทความวิชาการ สามารถอ้อมผ่าน Libgen / Sci-Hub ได้ และสามารถค้นหาแบบข้อความเต็มผ่าน Z-Library
- หากหาด้วยทุกวิธีข้างต้นแล้วยังหาไม่ได้ ยังมีที่ที่ขอความช่วยเหลือจากคนอื่นได้
→ Subreddit: /r/scholar
→ Twitter: #icanhazpdf
→ Wikipedia Resource Request
→ LessWrong HelpDesk
- สิ่งที่ควรทำหลังจากหา Full-Text Copy เจอแล้ว
→ อย่าลิงก์ไปยังโฮสต์ที่ไม่น่าเชื่อถือ: Libgen/Sci-Hub, Nber, Scribed, ResearchGate..
→ ถ้าเป็นไฟล์สแกน ให้แก้ไขและทำ OCR ด้วย gscan2pdf
→ เพิ่มเมทาดาทา: ExifTool, pdftk
→ ถ้าเป็นไปได้ ให้โฮสต์แบบสาธารณะ และแชร์ลิงก์บน Wikipedia/Reddit
→ เคล็ดลับลิงก์ PDF: ใส่ #page=N ต่อท้าย URL เพื่อระบุหน้าได้
- ขั้นสูง
→ ใช้ Archiver-Bot เพื่อเก็บประวัติการค้นหาเข้าคลังอัตโนมัติ
→ สร้าง GCSE (Google Custom Search Engine)
[หน้าเว็บ]
-
ถ้ารู้ชื่อเรื่อง ให้ค้นหาเฉพาะชื่อเรื่องก่อน
-
เวลาค้นหาด้วย URL ให้ลบพารามิเตอร์ที่ไม่จำเป็นออก
-
เวลาค้นหาบน Google ให้ใช้
site:เพื่อจำกัดโดเมน และจำกัดวันที่ -
ใช้เสิร์ชเอนจินอื่นนอกจาก Google
→ DuckDuckGo: ฟีเจอร์ Bangs ช่วยให้ค้นหาบนเว็บไซต์ภายนอกได้โดยตรง (ปัจจุบันรองรับเว็บไซต์ภายนอกมากกว่า 13000 แห่ง)
→ Bing/Yandex ก็มีประโยชน์เช่นกัน
- ตรวจสอบคลังเก็บ: Internet Archive หรือเมตาอาร์ไคฟ์ Memento
→ IA มีฟังก์ชันตรวจสอบ URL ทั้งโดเมน และสามารถดาวน์โหลดทั้งหมดได้ด้วย wayback_machine_downloader (Ruby)
→ ก่อนที่ Google Reader จะปิดตัวลง Archive Team ได้แบ็กอัป RSS จำนวนมากจาก Google Reader และโฮสต์ไว้บน IA (ทำเป็น WARC ได้ด้วย และมีคำแนะนำการดาวน์โหลดและค้นหาไว้ตอนท้าย)
→ archive.today: mirror คล้ายกับ IA
→ ถ้าไม่ได้จริง ๆ ก็ใช้ Google Cache ได้เช่นกัน
[หนังสือดิจิทัล]
-
หนังสือไม่มีใน Google Scholar ให้ใช้ Google Search
-
ค้นหาด้วย
filetype:pdfก่อน แล้วค่อยใช้ Libgen -
IA ก็มีหนังสือมาก แต่เหมือน SEO จะไม่ดีนักจึงค้นหาไม่ค่อยเจอ "ชื่อหนังสือ site:archive.org"
→ ถ้าหนังสือใน IA ติด DRM สามารถใช้ปลั๊กอิน De-DRM ของ Calibre ได้
- HathiTrust ก็มีหนังสือสแกนจำนวนมาก
→ ดาวน์โหลดทั้งเล่มโดยตรงไม่ได้ แต่มีวิธีอ้อมผ่าน wget และวิธีนี้ใช้กับ Wellcome Library ได้เช่นกัน
[หนังสือฉบับพิมพ์]
- ค้นหาหนังสือมือสองผ่าน Google Books หรือ find-more-books.com
→ eBay & Amazon ไม่ค่อยเหมาะกับการซื้อหนังสือมือสอง ใช้ดูข้อมูลอย่างเดียวพอ
→ AbeBooks, Thrift Books, Better World Books, B&N เหมาะกับการซื้อ
- การสแกนหนังสือ: แบบทำลายสัน vs ไม่ทำลายสัน และเครื่องมือตัด รวมถึงเคล็ดลับด้านเมทาดาทาและการสร้าง PDF
- Gwern Branwen เป็นนักเขียนและนักวิจัยอิสระ เขาดูแลเว็บไซต์ส่วนตัว https://www.gwern.net/ ซึ่งมีเอกลักษณ์มาก
สำหรับผมแล้ว ถ้าเป็นหน้าเว็บ/บล็อกส่วนตัว นี่คือระดับสุดยอดของสุดยอด เขาถนัดมากในการหยิบหัวข้อเฉพาะขึ้นมาขุดลึก จัดระเบียบ แล้วเผยแพร่
→ 5 อันดับหนังสือที่ผู้คนอ่านไม่จบจากข้อมูล GoodReads https://th.news.hada.io/topic?id=1231
1 ความคิดเห็น
ขอแนะนำ "เคล็ดลับการค้นหาข้อมูลสำหรับนักพัฒนา" ที่เคยโพสต์ไว้ก่อนหน้านี้ด้วย https://th.news.hada.io/topic?id=2932