Search My Site – เสิร์ชเอนจินโอเพนซอร์สสำหรับเว็บไซต์ส่วนตัวและอิสระ

(searchmysite.net)

3 คะแนน โดย GN⁺ 2025-03-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Search My Site เป็นเสิร์ชเอนจินสำหรับค้นหาเนื้อหาจริงบนเว็บไซต์ส่วนตัว โดยนำคอนเทนต์เว็บอิสระที่มักถูกกลบในเสิร์ชเอนจินขนาดใหญ่มาไว้ด้านหน้า
จำกัดขอบเขตการทำดัชนีไว้ที่ เว็บไซต์ที่ผู้ใช้ส่งเข้ามาและผ่านการตรวจสอบ จึงทำงานต่างจากดัชนีเว็บทั้งหมดที่ปะปนไปด้วยสแปม เนื้อหาเพื่อ SEO และคลิกเบต
ไม่แสดงโฆษณา และสนับสนุน หน้าผลการค้นหาที่ไม่มีโฆษณา เพื่อลดแรงจูงใจที่ส่งเสริมสแปมและทุนนิยมสอดส่อง
ตั้งเป้าโมเดลที่ชดเชยค่าใช้จ่ายในการดำเนินงานด้วย ฟีเจอร์ search as a service แทนโฆษณา เพื่อหลีกเลี่ยงความขัดแย้งระหว่างความต้องการของผู้ใช้กับผลประโยชน์ของผู้ลงโฆษณา
เป็นโปรเจกต์ โอเพนซอร์ส ที่เปิดเผยกระบวนการค้นหา การจัดอันดับ และการทำดัชนีอย่างโปร่งใส และให้ความสำคัญกับความเป็นส่วนตัว เพราะไม่ใช้โมเดลเก็บข้อมูลส่วนบุคคลเพื่อโฆษณา

การค้นหาที่เน้นเว็บไซต์ส่วนตัว

searchmysite.net เป็น เสิร์ชเอนจินแบบบูติก สำหรับเว็บไซต์ส่วนตัว
- กลุ่มเป้าหมายคือคอนเทนต์เว็บส่วนตัวและอิสระที่เรียกกันว่า indieweb, small web หรือ digital gardens
สามารถใช้การค้นหาสาธารณะเมื่ออยากหา ประสบการณ์ส่วนตัว ของผู้คนเกี่ยวกับหัวข้อ งานอดิเรก หรือความสนใจเฉพาะ
จุดต่างหลักคือการหลีกเลี่ยงเว็บไซต์การตลาดและบล็อกสแปมที่มักเจอในเสิร์ชเอนจินขนาดใหญ่

โมเดลดำเนินงานแบบไม่มีโฆษณา

ดัชนีไม่ได้ครอบคลุมทั้งอินเทอร์เน็ต แต่ครอบคลุมเฉพาะ เว็บไซต์ที่ผู้ใช้ส่งเข้ามาและผ่านการตรวจสอบแล้ว
- เป็นแนวทางที่ต่างจากดัชนีเว็บทั้งหมดซึ่งปะปนด้วยสแปม เนื้อหาเพื่อปรับแต่งเสิร์ชเอนจิน และคลิกเบต
ไม่แสดงโฆษณา และสนับสนุน หน้าผลการค้นหาแบบไม่มีโฆษณา
- มีเป้าหมายเพื่อกำจัดแรงจูงใจที่นำไปสู่สแปมและทุนนิยมสอดส่อง
ตั้งเป้าโมเดลที่ยั่งยืนและยึดผู้ใช้เป็นศูนย์กลาง โดยชดเชยค่าใช้จ่ายในการดำเนินงานด้วยฟีเจอร์ search as a service ไม่ใช่โฆษณา
ด้วยโครงสร้างที่ไม่พึ่งการเก็บข้อมูลส่วนบุคคลเพื่อขายให้ผู้ลงโฆษณา จึงมุ่งสู่ความเป็นส่วนตัวในระดับสูงสำหรับเสิร์ชเอนจิน
- อ่านรายละเอียดเพิ่มเติมได้ใน Privacy Policy

โอเพนซอร์สและการมีส่วนร่วมของชุมชน

บริการนี้เป็น โอเพนซอร์สเต็มรูปแบบ
- เพิ่มความโปร่งใสของกระบวนการค้นหา การจัดอันดับ และการทำดัชนี
- ทำให้ชุมชนมีส่วนร่วมในการปรับปรุงบริการได้มากขึ้น

1 ความคิดเห็น

GN⁺ 2025-03-26

ความเห็นจาก Hacker News

Wiby ก็ควรค่าแก่การกล่าวถึง เป็นเสิร์ชเอนจินที่พยายามสร้าง “เว็บที่ประกอบด้วยหน้าเว็บแบบยุคอินเทอร์เน็ตช่วงแรก ๆ” และเกณฑ์การทำดัชนีค่อนข้างเป็นแนว HTML เรียบง่าย, ชอบไซต์ที่ไม่ใช่เชิงพาณิชย์, ใช้สคริปต์/CSS เพื่อการตกแต่งให้น้อยที่สุด, ไม่มีโฆษณาแบบรุกล้ำที่ทับอยู่เหนือเนื้อหา, และตัดหน้าแนวพอร์ทัลที่พาไปยังเว็บไซต์เทอะทะออก
https://wiby.me
- อันนี้ไม่ใช่เป้าหมายเดียวกัน เกณฑ์การทำดัชนีไม่ใช่ “ต้องเป็นไซต์อิสระ/ส่วนบุคคล” แต่เป็น “ต้องใกล้เคียงกับ เอกสาร HTTP ธรรมดา”
  Search My Site เน้นทำให้เว็บไซต์ส่วนบุคคล/อิสระถูกค้นพบ ส่วน Wiby เน้นทำให้เอกสารที่ตกแต่งแบบมินิมอลถูกค้นพบ ดังนั้น เป้าหมายจึงต่างกัน
ยังมี Marginalia ด้วย ก่อนหน้านี้ก็เคยถูกแนะนำใน HN หลายครั้ง
https://marginalia-search.com/
https://news.ycombinator.com/item?id=35611923
https://news.ycombinator.com/item?id=31536626
เว็บไซต์อื่น ๆ ที่เกี่ยวข้อง: https://nownownow.com/, https://omg.lol/, https://indieweb.org/, https://ooh.directory/, https://neocities.org/, https://aboutideasnow.com/, https://indieblog.page/, https://wiby.me/, https://80.style/
โดยปกติจะ crawl อินเทอร์เน็ตเพื่อหาเพจ แล้วเก็บผลลัพธ์ไว้ที่ https://github.com/rumca-js/Internet-Places-Database สำหรับเพจส่วนตัวจะติดแท็ก “personal” ไว้
- ยังมี https://minifeed.net/ ที่ดำเนินการเองด้วย กำลังจะทำดัชนีถึง บล็อกส่วนตัว 1,000 แห่ง ในเร็ว ๆ นี้
ชอบ ความเรียบง่าย ของ https://pagefind.app/
- ใช้อยู่กับบล็อกส่วนตัวบน Astro และดีมาก
- น่าสนใจ มันใกล้เคียงกับ fuse.js เวอร์ชันที่สมบูรณ์กว่าหรือเปล่า? ตอนนี้เพิ่งเอา fuse.js ไปแปะกับบล็อก Jekyll แบบ static อยู่
- ชอบ Pagefind มากจนใช้กับไซต์ static ทั้งหมด
ถ้าเป็นเครื่องมือค้นหาเว็บไซต์ส่วนบุคคล Postgres อาจดูเป็นฐานข้อมูลที่ใหญ่ไปหน่อย แต่ก็น่าลองใช้ และเราต้องการเครื่องมือแบบนี้มากขึ้น
- Postgres ใช้สำหรับการจัดการไซต์เท่านั้น มีหน้าที่ติดตามรายการที่ส่งเข้ามา สถานะการตรวจสอบ การสมัครติดตาม ฯลฯ ส่วน ดัชนีค้นหา จริงอยู่ใน Apache Solr
  ในทางทฤษฎีสามารถเก็บข้อมูลจัดการไว้ใน Solr ได้เหมือนกัน แต่โดยทั่วไปไม่แนะนำให้ใช้ document store แบบ Solr เป็นที่เก็บ master data อะไรที่เบากว่าอย่าง SQLite ก็ทำได้ แต่เครื่องมือนี้ออกแบบโดยคำนึงถึงการ deploy บนเซิร์ฟเวอร์ และ Postgres ก็ไม่ได้กินทรัพยากรมากนัก
ชอบมาก เผลอเสียเวลาไปหนึ่งชั่วโมงกับการดู เว็บไซต์ส่วนตัวที่สุ่ม ๆ แต่ทำอย่างตั้งใจ แบบที่เคยทำให้เว็บยอดเยี่ยม
- สิ่งที่ searchmysite.net พยายามทำก็คือแบบนั้น ทำให้ “การโต้คลื่นเว็บ” กลับมาเป็นกิจกรรมยามว่างที่สนุกอีกครั้ง
  ตอนที่ขึ้น HN เมื่อเกือบ 3 ปีก่อน หลายคนเห็นช่องค้นหาแล้วคิดว่าเป็นตัวแทน Google และบางคนก็ผิดหวังเมื่อรู้ว่าไม่ใช่ ตอนนี้ดูเหมือนว่าวิธีค้นหา คอนเทนต์บนเว็บที่มนุษย์สร้าง ไม่ใช่ AI จะมีประโยชน์กว่าที่เคย
  https://news.ycombinator.com/item?id=31395231
โปรเจกต์แบบนี้ดีมากสำหรับการหา blog ที่น่าสนใจและไซต์ที่ไม่ค่อยมีคนรู้จัก ตัวที่ผมใช้เป็นหลักคือ Marginalia Search
https://marginalia-search.com/
ดูดี น่าขันที่เมื่อคิดว่า Google ครองตลาดมาตลอด 10 ปีที่ผ่านมา ผมรู้สึกอย่างแรงว่า หนึ่งใน ผู้ชนะรายใหญ่ของวงการ AI จะเป็นเสิร์ชเอนจินฝั่ง backend
การค้นหาเว็บยุคใหม่ถูกปนเปื้อนมากเกินไปด้วยสารพัดเทคนิคเพื่อให้ติดหน้าแรกของ Google และคอนเทนต์ดี ๆ จำนวนมากก็ถูกฝังหายไป ตอนนี้เมื่อโมเดลขนาดใหญ่เริ่มเรียกใช้เว็บได้ ความเทอะทะนี้ก็เริ่มปรากฏในการค้นหาแบบ AI ด้วย เราต้องการเอนจินที่ให้ความสำคัญกับข้อมูลอย่างแท้จริง ไม่มีโฆษณา และเน้น ข้อมูลที่มีโครงสร้าง มากกว่าการนำเสนอให้ดูสวย
ตอนสำรวจโปรเจกต์นี้ บทความบล็อกนี้ให้รายละเอียดเชิงเทคนิคของเสิร์ชเอนจินได้ลึกซึ้งที่สุด
https://blog.searchmysite.net/posts/searchmysite.net-buildin...
งงนิดหน่อย Solr เป็นเสิร์ชเอนจิน แต่ก็มีการโหลดโมเดล LLM ด้วย เลยสงสัยว่าโมเดล LLM เพิ่มอะไรให้กับโซลูชันนี้
- LLM เป็นการทดลองสำหรับ retrieval-augmented generation หรืออินเทอร์เฟซแบบ “แชตกับเว็บไซต์ของฉัน” และใช้ Apache Solr เป็น vector store
  เพื่อให้รับภาระค่าใช้จ่ายไหว จึงทดสอบด้วย LLM ขนาดเล็กที่โฮสต์เอง แต่ผลลัพธ์ยังไม่ดีพอที่จะเปิดใช้ฟีเจอร์ทั้งหมด จึงปิด LLM ไปแล้ว และอาจจะลบออกทั้งหมดในอนาคต

Search My Site – เสิร์ชเอนจินโอเพนซอร์สสำหรับเว็บไซต์ส่วนตัวและอิสระ

การค้นหาที่เน้นเว็บไซต์ส่วนตัว

โมเดลดำเนินงานแบบไม่มีโฆษณา

โอเพนซอร์สและการมีส่วนร่วมของชุมชน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News