เคล็ดลับการค้นหาบนอินเทอร์เน็ต

(gwern.net)

35 คะแนน โดย xguru 2021-04-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

รวบรวมตั้งแต่พื้นฐานไปจนถึงเคล็ดลับสำคัญในการค้นหาข้อมูลอย่างบทความวิชาการ หน้าเว็บ หนังสือ ฯลฯ บนอินเทอร์เน็ต
บทความนี้เขียนโดย Gwern Branwen* ซึ่งผมคิดว่าเป็นเจ้าของเว็บไซต์ส่วนตัวที่ดีที่สุดคนหนึ่ง เท่าที่ผมเคยเห็น ยกมาเพียงบางส่วนเท่านั้น ดังนั้นแนะนำให้ไปอ่านต้นฉบับด้วย

[ ค้นหาบทความวิชาการ ]

ไวยากรณ์การค้นหา: ตัวดำเนินการบูลีน, คำสั่งสำคัญของ Google (เครื่องหมายอัญประกาศคู่คือการตรงกันแบบเป๊ะ, เครื่องหมายขีดกลางคือปฏิเสธ/ยกเว้น, site: คือค้นหาเฉพาะเว็บไซต์)
ตั้งค่าปุ่มลัดเพื่อค้นหาอย่างรวดเร็ว: AutoHotkey, Quicksilver, XMonad เป็นต้น
คีย์ลัดของเว็บเบราว์เซอร์: C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
เวลาใช้ Google Scholar ให้ดูแบบ HTML
เคล็ดลับการค้นหาชื่อบทความวิชาการ

→ ตัดบางส่วนของชื่อเรื่องออกเพื่อลดผลลัพธ์ หรือใช้ AND/OR และ - เป็นต้น

→ ลองเพิ่ม/ลบ Year ดู..

→ ใช้ช่วงวันที่ของ Google

→ ใส่ site:archive.org เพื่อค้นหาใน Internet Archive

กรณีที่ยาก

→ การอ้างอิงย้อนกลับ (Reverse Citations): ดู "related articles" และ "cited by" ของ Google Scholar

→ วิทยานิพนธ์ปริญญาโท/เอก ใช้ ProQuest

→ ค้นหารูปภาพย้อนกลับ: ใช้ Google Images, TinEye, Yandex

เคล็ดลับการค้นหาแยกตามโดเมน

→ Twitter: ถึงจะค้นเจอผ่าน Google ได้เหมือนกัน แต่ถ้ารู้ข้อมูลเพิ่มเติม การค้นหาขั้นสูงของ Twitter ก็ยอดเยี่ยมมาก (from:, to:, since:, until:, near:, url: ..)

→ ศาลรัฐบาลกลางสหรัฐฯ: ต้องสมัคร Pacer เสียเงิน ($0.1/หน้า) แต่ถ้ายอดรวมไม่เกิน $15 จะฟรี และยังมี public mirror ชื่อ Recap ด้วย มีส่วนขยายเบราว์เซอร์ Recap ให้ใช้เช่นกัน

→ ห้องสมุด Wellcome: มีนิตยสาร/หนังสือเก่าเยอะมาก SEO แย่มากจนค้นผ่าน Google ฯลฯ ไม่ค่อยเจอ แต่ควรลองค้นให้ดี

→ นิตยสารเก่า: site:pdf-giant.net , การค้นหาด้านการศึกษาใช้ ERIC ( site:eric.ed.gov )

วิธีรับมือกับ Paywall

→ ในกรณีหนังสือ/บทความวิชาการ สามารถอ้อมผ่าน Libgen / Sci-Hub ได้ และสามารถค้นหาแบบข้อความเต็มผ่าน Z-Library

หากหาด้วยทุกวิธีข้างต้นแล้วยังหาไม่ได้ ยังมีที่ที่ขอความช่วยเหลือจากคนอื่นได้

→ Subreddit: /r/scholar

→ Twitter: #icanhazpdf

→ Wikipedia Resource Request

→ LessWrong HelpDesk

สิ่งที่ควรทำหลังจากหา Full-Text Copy เจอแล้ว

→ อย่าลิงก์ไปยังโฮสต์ที่ไม่น่าเชื่อถือ: Libgen/Sci-Hub, Nber, Scribed, ResearchGate..

→ ถ้าเป็นไฟล์สแกน ให้แก้ไขและทำ OCR ด้วย gscan2pdf

→ เพิ่มเมทาดาทา: ExifTool, pdftk

→ ถ้าเป็นไปได้ ให้โฮสต์แบบสาธารณะ และแชร์ลิงก์บน Wikipedia/Reddit

→ เคล็ดลับลิงก์ PDF: ใส่ #page=N ต่อท้าย URL เพื่อระบุหน้าได้

ขั้นสูง

→ ใช้ Archiver-Bot เพื่อเก็บประวัติการค้นหาเข้าคลังอัตโนมัติ

→ สร้าง GCSE (Google Custom Search Engine)

[หน้าเว็บ]

ถ้ารู้ชื่อเรื่อง ให้ค้นหาเฉพาะชื่อเรื่องก่อน
เวลาค้นหาด้วย URL ให้ลบพารามิเตอร์ที่ไม่จำเป็นออก
เวลาค้นหาบน Google ให้ใช้ site: เพื่อจำกัดโดเมน และจำกัดวันที่
ใช้เสิร์ชเอนจินอื่นนอกจาก Google

→ DuckDuckGo: ฟีเจอร์ Bangs ช่วยให้ค้นหาบนเว็บไซต์ภายนอกได้โดยตรง (ปัจจุบันรองรับเว็บไซต์ภายนอกมากกว่า 13000 แห่ง)

→ Bing/Yandex ก็มีประโยชน์เช่นกัน

ตรวจสอบคลังเก็บ: Internet Archive หรือเมตาอาร์ไคฟ์ Memento

→ IA มีฟังก์ชันตรวจสอบ URL ทั้งโดเมน และสามารถดาวน์โหลดทั้งหมดได้ด้วย wayback_machine_downloader (Ruby)

→ ก่อนที่ Google Reader จะปิดตัวลง Archive Team ได้แบ็กอัป RSS จำนวนมากจาก Google Reader และโฮสต์ไว้บน IA (ทำเป็น WARC ได้ด้วย และมีคำแนะนำการดาวน์โหลดและค้นหาไว้ตอนท้าย)

→ archive.today: mirror คล้ายกับ IA

→ ถ้าไม่ได้จริง ๆ ก็ใช้ Google Cache ได้เช่นกัน

[หนังสือดิจิทัล]

หนังสือไม่มีใน Google Scholar ให้ใช้ Google Search
ค้นหาด้วย filetype:pdf ก่อน แล้วค่อยใช้ Libgen
IA ก็มีหนังสือมาก แต่เหมือน SEO จะไม่ดีนักจึงค้นหาไม่ค่อยเจอ "ชื่อหนังสือ site:archive.org"

→ ถ้าหนังสือใน IA ติด DRM สามารถใช้ปลั๊กอิน De-DRM ของ Calibre ได้

HathiTrust ก็มีหนังสือสแกนจำนวนมาก

→ ดาวน์โหลดทั้งเล่มโดยตรงไม่ได้ แต่มีวิธีอ้อมผ่าน wget และวิธีนี้ใช้กับ Wellcome Library ได้เช่นกัน

[หนังสือฉบับพิมพ์]

ค้นหาหนังสือมือสองผ่าน Google Books หรือ find-more-books.com

→ eBay & Amazon ไม่ค่อยเหมาะกับการซื้อหนังสือมือสอง ใช้ดูข้อมูลอย่างเดียวพอ

→ AbeBooks, Thrift Books, Better World Books, B&N เหมาะกับการซื้อ

การสแกนหนังสือ: แบบทำลายสัน vs ไม่ทำลายสัน และเครื่องมือตัด รวมถึงเคล็ดลับด้านเมทาดาทาและการสร้าง PDF

Gwern Branwen เป็นนักเขียนและนักวิจัยอิสระ เขาดูแลเว็บไซต์ส่วนตัว https://www.gwern.net/ ซึ่งมีเอกลักษณ์มาก

สำหรับผมแล้ว ถ้าเป็นหน้าเว็บ/บล็อกส่วนตัว นี่คือระดับสุดยอดของสุดยอด เขาถนัดมากในการหยิบหัวข้อเฉพาะขึ้นมาขุดลึก จัดระเบียบ แล้วเผยแพร่

→ 5 อันดับหนังสือที่ผู้คนอ่านไม่จบจากข้อมูล GoodReads https://th.news.hada.io/topic?id=1231

1 ความคิดเห็น

gguimoon 2021-04-28

ขอแนะนำ "เคล็ดลับการค้นหาข้อมูลสำหรับนักพัฒนา" ที่เคยโพสต์ไว้ก่อนหน้านี้ด้วย https://th.news.hada.io/topic?id=2932

เคล็ดลับการค้นหาบนอินเทอร์เน็ต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น