1 คะแนน โดย GN⁺ 2024-02-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การพัฒนาของเสิร์ชเอนจิน Marginalia

  • Marginalia Search ตอนเริ่มต้นเป็นการทดลองเล็ก ๆ แต่ตอนนี้กลายเป็นโปรเจกต์ที่ทำเต็มเวลาแล้ว
  • เสิร์ชเอนจินทำงานได้ดีที่สุดเท่าที่เคยเป็นมา และบรรลุหมุดหมายสำคัญหลายอย่าง
  • เสิร์ชเอนจินได้ย้ายออกจากห้องนั่งเล่นไปยังเซิร์ฟเวอร์ระดับองค์กรที่เหมาะสม

การจัดระเบียบโค้ดเบสและทำให้แอปพลิเคชันกระชับขึ้น

  • ประเด็นหลักของปีนี้คือการจัดระเบียบโค้ดเบสและทำให้แอปพลิเคชันกระชับขึ้น
  • มุ่งเน้นการรักษาภาระด้านปฏิบัติการให้อยู่ในระดับที่จัดการได้ และทำให้ผู้อื่นเข้าถึงแอปพลิเคชันและโค้ดเบสได้ง่ายขึ้น
  • ต้องใช้ความพยายามอย่างมาก แต่ตอนนี้เริ่มเห็นผลลัพธ์แล้ว

การปรับปรุงการปฏิบัติการ

  • ในอดีต การสลับดัชนีต้องหยุดให้บริการหลายวัน แต่ตอนนี้ไม่มีอีกแล้ว
  • ช่วงหลังมานี้ยังสามารถอัปเกรดแบบ zero downtime ได้ด้วย
  • สิ่งที่ในมุมการปฏิบัติการเคยต้องใช้กระบวนการแบบแมนนวลหลายสัปดาห์ ตอนนี้ถูกแทนที่ด้วยการกดปุ่มใน GUI

เพิ่มการรองรับคีย์เวิร์ดใน anchor text

  • การเพิ่มการรองรับคีย์เวิร์ดใน anchor text ส่งผลอย่างมากต่อความสามารถของเสิร์ชเอนจินในการค้นหาผลลัพธ์ที่เกี่ยวข้อง
  • ตอนที่มีการเปลี่ยนแปลงครั้งแรก มันยังผสานเข้ากันได้ไม่ดีจึงไม่เห็นผลชัดทันที แต่เมื่อสัญญาณด้านความเกี่ยวข้องใหม่เริ่มเข้าที่ ก็เกิดช่วงเวลาที่น่าทึ่งขึ้น

การเปลี่ยนมาทำเต็มเวลา

  • ด้วยการสนับสนุนจาก NLnet จึงเปลี่ยนมาทำโปรเจกต์นี้เต็มเวลาตั้งแต่ประมาณ 8 เดือนก่อน
  • ส่วนที่ยากที่สุดคือการไม่ทำงานมากเกินไป และพยายามหยุดพักอย่างน้อยสัปดาห์ละ 1 วัน
  • เพราะรู้ว่าตัวเองคิดได้ดีขึ้นเมื่อได้พักผ่อนเพียงพอ ในทางทฤษฎีแล้วการหยุดพักเป็นครั้งคราวจึงสำคัญเพื่อให้ทำงานได้ดีขึ้น

เป้าหมายการทำดัชนีเอกสาร 1 พันล้านรายการ

  • การเดินทางสู่เป้าหมายการทำดัชนีเอกสาร 1 พันล้านรายการกำลังคืบหน้าอย่างช้า ๆ
  • ไม่ใช่เพราะซอฟต์แวร์รองรับไม่ไหว แต่เพราะอัตราส่วนสัญญาณต่อสัญญาณรบกวนของเว็บไม่ดี จึงยากกว่าที่คาดไว้
  • หนึ่งในเหตุผลสำคัญที่ทำให้เสิร์ชเอนจินทำงานได้ค่อนข้างดี คือสิ่งที่มันเลือกจะไม่ทำดัชนี
  • เมื่อ 1 ปีก่อน ดัชนีมีอยู่ระหว่าง 50 ล้านถึง 100 ล้านเอกสาร แต่ในการครอว์ลครั้งล่าสุดเพิ่มเป็น 220 ล้าน และคาดว่าเมื่อรอบการครอว์ลถัดไปจบลงจะอยู่ที่ราว 290 ล้านถึง 300 ล้าน

การปรับปรุงการพาร์สและการรันคิวรี

  • ยังมีพื้นที่ให้ปรับปรุงอีกมากในด้านการพาร์สและการรันคิวรี
  • ได้เริ่มงานเตรียมการเพื่อจัดระเบียบโค้ดที่ได้รับผลกระทบก่อนที่งานจริงจะเริ่มต้น
  • การก้าวกระโดดครั้งใหญ่ของโปรเจกต์มักเกิดจากการทดลองเสมอ แม้จะมีสิ่งที่วางแผนไว้ แต่สิ่งที่ไม่ได้วางแผนดูเหมือนจะเป็นตัวที่สร้างผลกระทบอย่างแท้จริง

คำขอบคุณ

  • ขอขอบคุณ NLnet, FUTO, ผู้สนับสนุนผ่าน Patreon, ผู้ผลักดัน และผู้ใช้งาน
  • หากไม่มีการสนับสนุนจากพวกเขา ทั้งหมดนี้ก็คงเป็นไปไม่ได้

ความเห็นของ GN⁺

  • เสิร์ชเอนจิน Marginalia เป็นตัวอย่างของโปรเจกต์ที่เริ่มจากการทดลองเล็ก ๆ และเติบโตเป็นโปรเจกต์เต็มเวลาผ่านการปรับปรุงอย่างต่อเนื่องและการสนับสนุนจากชุมชน
  • การปรับปรุงด้านฟังก์ชันอย่างการรองรับคีย์เวิร์ดใน anchor text เป็นการเปลี่ยนแปลงสำคัญที่ช่วยยกระดับประสิทธิภาพของเสิร์ชเอนจินอย่างมาก
  • โปรเจกต์นี้เปิดโอกาสให้ชุมชนโอเพนซอร์สและนักพัฒนาได้ร่วมมือและมีส่วนร่วม พร้อมทั้งช่วยผลักดันความก้าวหน้าของเทคโนโลยีเสิร์ชเอนจิน

1 ความคิดเห็น

 
GN⁺ 2024-02-26
ความคิดเห็นบน Hacker News
  • ผู้ใช้คนหนึ่งได้บุ๊กมาร์กไซต์นี้ไว้เพื่อค้นหาเอกสารเฉพาะทางมากเกี่ยวกับการทำแบบจำลองเชิงตัวเลข โดยพบข้อมูลเกี่ยวกับตัวแก้สมการ การสร้างเมช และวิธีการหาค่าเหมาะที่สุดจากยุค 80 และ 90 ที่หาไม่ได้ใน Google และรู้สึกว่ามีคุณค่ามากเพราะค้นพบเว็บไซต์ที่เขียนโดยผู้เชี่ยวชาญซึ่ง Google หาไม่เจอเลย
  • อัตราส่วนสัญญาณต่อสัญญาณรบกวนของเว็บไม่ค่อยดี จึงเจอความยากลำบากมากกว่าที่คาดไว้ หนึ่งในเหตุผลที่เสิร์ชเอนจินทำงานได้ค่อนข้างดี อาจเป็นเพราะสิ่งที่มันไม่ได้ทำดัชนี
  • ผู้ใช้คนหนึ่งพบเว็บไซต์สุ่มที่มีการแพตช์ไบนารี C&C Tiberian Sun เพื่อรองรับ IPv6 และทำให้นึกถึงเว็บยุคเก่า เรื่องนี้ชวนให้นึกถึง Searchlores ของ Fravia และบอกว่าถ้า Umberto Eco สนใจคอมพิวเตอร์ก็คงให้อารมณ์แบบนั้น มันเหมือนกับการไปเจอบางสิ่งที่น่าทึ่งในห้องสมุดเขาวงกตใน The Name of the Rose แล้วภายหลังก็สูญเสียมันไปตลอดกาล
  • ผู้ใช้อีกคนบอกว่ามันให้ความรู้สึกเหมือนสมัยก่อน ในปี 1998 แม้แต่ AltaVista ก็ยังหาเนื้อหาเกี่ยวกับความแตกต่างระหว่างหนังสือกับภาพยนตร์เรื่อง All Quiet on the Western Front ไม่เจอ แต่ตอนนี้กลับมีหน้าบล็อกส่วนตัวจำนวนมาก วิทยานิพนธ์มหาวิทยาลัย เว็บไซต์โค้ด การถกเถียงในเมลลิงลิสต์ บล็อก กลุ่มสนทนา Rust เว็บไซต์ส่วนตัว และการสนทนาของผู้เชี่ยวชาญเกี่ยวกับหัวข้อนี้ให้ค้นพบ
  • ผู้ใช้คนหนึ่งบอกว่ารู้สึกทึ่งเมื่อค้นหา transformers intuition โดยผลลัพธ์จากเสิร์ชเอนจินนี้ยอดเยี่ยมมาก ขณะที่ผลลัพธ์ของ Google แสดงแต่เว็บไซต์ที่ทำ SEO มาอย่างหนัก (ส่วนใหญ่คือ Medium) และเว็บไซต์ฉูดฉาดที่มีเนื้อหาด้อยกว่า
  • ผู้ใช้คนหนึ่งสงสัยว่า Common Crawl จะมีประโยชน์หรือไม่ ปัจจุบันมีข้อมูลราว 100TB ครอบคลุม 3.35 พันล้านหน้า ซึ่งน่าจะใช้เวลาดาวน์โหลดนานมากหากไม่ประมวลผลบน S3 โดยตรง และก็ไม่แน่ใจว่าอัตราส่วนสัญญาณต่อสัญญาณรบกวนจะเป็นอย่างไร
  • มีผู้ใช้ที่ตั้งคำถามเกี่ยวกับฟีเจอร์ random sites โดยคาดหวังว่าจะเป็นการสุ่มตัวอย่างแบบสม่ำเสมอ แต่รู้สึกว่าเว็บไซต์บางแห่งถูกส่งกลับมาซ้ำ ๆ
  • ผู้ใช้คนหนึ่งบอกว่าตนคุ้นเคยกับ Google จึงยังไม่ได้ใช้บ่อยนัก แต่คิดว่า Marginalia เป็นโปรเจกต์ที่ยอดเยี่ยม และน่าจะใช้มากขึ้นในอนาคต เพราะเว็บไซต์สแปม SEO และคำตอบที่สร้างโดย AI กำลังพบได้บ่อยขึ้นเรื่อย ๆ
  • สุดท้าย ผู้ใช้คนหนึ่งบอกว่าลองเปรียบเทียบกับผลการค้นหาล่าสุดของ Google แล้ว พบว่าผลการค้นหาเกี่ยวกับคะแนนต่ำสุดของ Indian Test cricket ไม่ดีนัก ผลลัพธ์สำหรับ RAID calculator ก็พอใช้ได้แต่มีสัญญาณรบกวนปะปนอยู่ และการค้นหาเกี่ยวกับความแตกต่างระหว่างภาพยนตร์กับหนังสือ All Quiet on the Western Front กลับไม่พบผลลัพธ์เลย