Alignment Scry ของ ExoPriors สำหรับสืบค้นดัชนี 600GB จาก Hacker News, arXiv และอื่นๆ ผ่าน Claude Code

(exopriors.com)

1 คะแนน โดย GN⁺ 2026-01-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Alignment Scry ของ ExoPriors เป็นแพลตฟอร์มที่ค้นหา เอกสาร 60M รายการและ embeddings 22M รายการ ที่รวบรวมจาก arXiv, Hacker News, LessWrong และแหล่งอื่นๆ ได้ด้วย SQL และการดำเนินการเวกเตอร์ผ่าน Claude Code
มีการให้ API key สาธารณะ และรองรับทั้ง การค้นหาข้อความแบบ BM25 และ การค้นหาเชิงความหมายบนพื้นฐาน pgvector cosine distance
สามารถแยกใช้งาน การค้นหาแบบตัวอย่างที่รวดเร็ว และ การค้นหาแบบสมบูรณ์ ได้ผ่านฟังก์ชัน alignment.search() และ alignment.search_exhaustive()
สามารถตั้งค่าอย่างง่ายใน Claude Web หรือสภาพแวดล้อม Claude Code เพื่อเรียกใช้ API ได้ พร้อมมีแฮนเดิลส่วนตัว (@handle) และความสามารถในการจัดเก็บ embeddings
เปิดให้ใช้งานฟรีสำหรับนักวิจัย และมีความสำคัญในฐานะสภาพแวดล้อมทดลองสำหรับการสืบค้นข้อมูลขนาดใหญ่เพื่อ งานวิจัย AI และการทำงานอัตโนมัติด้านการสำรวจข้อมูล

ภาพรวม

Alignment Scry เป็นระบบค้นหาที่สามารถดำเนินการ SQL และพีชคณิตเวกเตอร์กับ ดัชนีเอกสารที่เกี่ยวข้องกับการระเบิดของปัญญา
- แหล่งข้อมูลหลัก ได้แก่ arXiv, Hacker News, LessWrong, community-archive.org เป็นต้น
- ผู้ใช้สามารถสำรวจข้อมูลผ่าน Claude Code ด้วยคำถามภาษาธรรมชาติหรือคำสั่ง SQL
ระบบยังอยู่ใน ขั้น Alpha เชิงทดลอง และยังมี Lens Studio ซึ่งเป็นเครื่องมือสำรวจที่เน้น LessWrong รวมอยู่ด้วย

การผสานรวมกับ Claude และแนวทางการเข้าถึง

สามารถใช้งานได้ทันทีผ่าน การตั้งค่าการเข้าถึง API ใน Claude Code หรือ Claude Web
- อนุญาตการรันโค้ด การสร้างไฟล์ การเข้าถึงเครือข่าย และเพิ่ม api.exopriors.com ลงในโดเมนไวต์ลิสต์
เข้าถึงได้โดยไม่ต้องล็อกอินผ่าน API key สาธารณะ exopriors_public_readonly_v1_2025
สามารถใช้ตัวเลือก --dangerously-skip-permissions เพื่อไม่ให้โมเดล Claude ต้องผ่านขั้นตอนขออนุมัติผู้ใช้ทุกครั้งที่มีการเรียก API (มีความเสี่ยง)
แนะนำให้ใช้โมเดล Opus 4.5 ขึ้นไป และระบุไว้อย่างชัดเจนว่ามีความเสี่ยงจาก prompt injection attack

ความสามารถหลัก

Query: รัน SQL query กับเอกสาร 60 ล้านรายการ
Embed: จัดเก็บและนำ embeddings กลับมาใช้ซ้ำเพื่อการค้นหาเชิงความหมาย
Timeout: ปรับอัตโนมัติราว 20–120 วินาทีตามภาระงาน
เป้าหมายการค้นหา: เอกสารหลายประเภท เช่น post, comment, paper, tweet
Lexical Search: ค้นหาคีย์เวิร์ด ค้นหาวลี และ fuzzy matching บนพื้นฐาน BM25
Semantic Search: ค้นหาความหมายใกล้เคียงด้วย pgvector cosine distance (<=>)

การจัดการ query และประสิทธิภาพ

alignment.search() จะคืนผลลัพธ์ BM25 อันดับสูงสุดเพียง 100 รายการ เหมาะกับ การสุ่มตัวอย่างเพื่อสำรวจอย่างรวดเร็ว
alignment.search_exhaustive() ทำ การค้นหาแบบสมบูรณ์ และรองรับ pagination
แนวทางด้านประสิทธิภาพ
- การค้นหาแบบง่าย: 1–5 วินาที
- embedding join (ไม่เกิน 500,000 แถว): 5–20 วินาที
- การ aggregate ที่ซับซ้อน (ไม่เกิน 2,000,000 แถว): 20–60 วินาที
- การสแกนขนาดใหญ่ (มากกว่า 5,000,000 แถว): อาจ timeout ได้เมื่อระบบมีโหลด
มี การแสดงสรุปก่อนรัน query และขั้นตอนยืนยันจากผู้ใช้ เพื่อป้องกันการโอเวอร์โหลด
ระบบระบุ query ที่หนักโดยอัตโนมัติจากเกณฑ์อย่าง LIMIT, estimated_rows, ขนาด join เป็นต้น

โครงสร้างข้อมูลและวิว

มี materialized view ภายในสคีมา alignment
- ตัวอย่าง: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments เป็นต้น
- คอลัมน์สำคัญ: entity_id, uri, source, kind, original_author, title, score, embedding เป็นต้น
สามารถ join กับตาราง alignment.entities เพื่อเข้าถึงเมทาดาทาได้
มีฟังก์ชัน alignment.author_topics() สำหรับวิเคราะห์ความเชื่อมโยงระหว่างหัวข้อเฉพาะกับผู้เขียน

การดำเนินการเวกเตอร์และความสามารถในการผสมผสาน

<=>: ตัวดำเนินการ pgvector cosine distance (ยิ่งใกล้ 0 ยิ่งคล้ายกัน)
@handle: อ้างอิงเวกเตอร์ที่บันทึกไว้
การผสมเวกเตอร์: เช่น scale(@rigor,.6) - scale(@hype,.3) เพื่อผสมน้ำหนักของแนวคิด
การลดอคติ: ลบอิทธิพลของหัวข้อเฉพาะด้วย debias_vector(@axis, @topic)
สามารถคำนวณ เวกเตอร์ศูนย์กลาง (centroid) เพื่อแทนความหมายเฉลี่ยของผู้เขียนหรือยุคสมัย
สามารถคำนวณ การเปลี่ยนแปลงตามเวลา (temporal delta) เพื่อติดตามการเปลี่ยนแปลงทางแนวคิด

การค้นหาแบบไฮบริดและตัวอย่าง

รองรับ การค้นหาแบบผสาน Lexical + Semantic
- ตัวอย่าง: รูปแบบ WITH hits AS (search(...)) <=> @q สำหรับจัดเรียงผู้สมัครจากข้อความใหม่ด้วยเวกเตอร์เชิงความหมาย
ตัวอย่าง BM25
- alignment.search('corrigibility')
- alignment.search('\"inner alignment\"')
ตัวอย่าง SQL
- คำนวณรายชื่อผู้เขียนอันดับต้นๆ ของหัวข้อเฉพาะ
- ใช้ alignment.search_exhaustive() สำหรับทำ pagination ของผลลัพธ์ขนาดใหญ่

ขนาดระบบและเงื่อนไขการให้บริการ

มี เอกสารมากกว่า 65M รายการ, embeddings มากกว่า 22M รายการ, และ ดัชนีมากกว่า 600GB
ให้ใช้ฟรีสำหรับนักวิจัย พร้อมโควตา embedding token 1.5M
เมื่อสร้างบัญชี จะได้รับเนมสเปซแฮนเดิลส่วนตัว timeout ที่ยาวขึ้น (สูงสุด 10 นาที) และขีดจำกัด query ที่ขยายเพิ่ม

สรุป

Alignment Scry คือ แพลตฟอร์มสำหรับ query ข้อมูลงานวิจัย AI ขนาดใหญ่ที่ผสานกับ Claude และรองรับการค้นหาแบบไฮบริดที่รวม SQL กับการดำเนินการเวกเตอร์
ผ่าน API สาธารณะและแนวทางการเขียน query ที่ชัดเจน ระบบมอบ การเข้าถึงข้อมูลเชิงทดลองสำหรับนักวิจัยและนักพัฒนา AI
ด้วย ดัชนีระดับ 600GB และเอกสารมากกว่า 60 ล้านรายการ จึงสร้างสภาพแวดล้อมสำหรับทำงานอัตโนมัติด้านการสำรวจที่เกี่ยวข้องกับ AI alignment และการวิจัยด้านปัญญา

1 ความคิดเห็น

GN⁺ 2026-01-01

ความคิดเห็นจาก Hacker News

ฉันชอบตรงที่โปรเจกต์นี้ไม่ได้เป็นแค่แชตบอตแบบกล่องดำ แต่สร้าง SQL ขึ้นมา
แทนที่จะใช้ LLM เป็นฐานข้อมูล ฉันคิดว่าทิศทางที่ถูกต้องคือใช้มันเป็นเครื่องมือสำหรับแปลภาษาธรรมชาติเป็นภาษาคิวรีเชิงโครงสร้าง
แต่ก็สงสัยว่าได้ทำ timeout หรือ sandboxing ไว้หรือไม่ เพื่อป้องกันการนำ API ไปใช้ในทางที่ผิด
และก็สงสัยด้วยว่ามี semantic bleeding ระหว่างชุดข้อมูลต่างกันหรือไม่ — เช่น “optimization” อาจถูกใช้คนละความหมายใน ArXiv, LessWrong และ HN
- ใช่ บางครั้งผู้คนต้องการความแม่นยำและการควบคุม
  ตัววางแผนคิวรี SQL ก็ยังทรงพลังเมื่อจัดการกับวิวและดัชนีจำนวนมาก
  เราใส่ใจเรื่องความปลอดภัยและ rate-limit มากเช่นกัน และใช้การแยกวิเคราะห์ AST เพื่อบล็อก join ที่อันตราย
  Claude สามารถใช้การผสม centroid ของเวกเตอร์เพื่อลดความต่างของความหมายระหว่างโดเมนต่าง ๆ
  ตัวอย่างเช่น สามารถนำ embedding ของคำว่า “optimization” จาก LessWrong กับ ArXiv มาเฉลี่ยเพื่อทำการทดลองเปรียบเทียบได้
- ฉันก็ทำแนวทางคล้ายกัน คือทำบันทึกบทสนทนา Claude Code และ Codex ให้เป็นฐานข้อมูลในเครื่อง เพื่อให้คิวรีจาก CLI ได้ทันที
  ฉันสรุปขั้นตอนการทำไว้ในบทความบล็อก
  ตอนนี้เป็นไคลเอนต์สำหรับ macOS แต่กำลังเตรียมเอนจินสำหรับ Linux อยู่
- ฉันคิดว่านี่แหละคือ “นวัตกรรมจริงที่จะยังอยู่ต่อให้ฟองสบู่ AI แตก”
  ขอบเขตการใช้งานของการตีความและแปลภาษาธรรมชาตินั้นกว้างมาก
  ท้ายที่สุดแล้วเงินลงทุนก็น่าจะไหลไปสู่เครื่องมือที่ใช้งานได้จริงแบบนี้
- ยังไม่มีการทดลอง แต่จากประสบการณ์ ขนาดของโมเดล embedding ส่งผลต่อการแยกความหมายของคำ
  ยิ่งโมเดลใหญ่ ก็ยิ่งแยกความหมายที่ต่างกันของคำเดียวกันได้ดีขึ้น
เป็นโปรเจกต์ที่ยอดเยี่ยมมาก ฉันตั้งใจจะลองใช้กับงานวิจัยทฤษฎีสตริงที่กำลังทำอยู่เพื่อค้นหา Calabi–Yau manifold ทันที
หลังจากทำวิจัยร่วมกับ Claude มันก็หางานวิจัยสองฉบับเกี่ยวกับ flux vacua ที่ใช้ genetic algorithm เจอ และการผสาน SQL + BM25 ก็ทำให้ค้นหาได้ละเอียดมาก
แต่การ escape เครื่องหมายอัญประกาศใน bash ค่อนข้างยุ่งยาก และเพราะข้อจำกัด 100 รายการของ alignment.search() จึงต้องใช้ search_exhaustive() ถึงจะได้ผลลัพธ์ครบถ้วน
- ฉันก็ใช้เครื่องมือนี้ไปดูงานวิจัยล่าสุดของ DESI เรื่องการเปลี่ยนแปลงของพลังงานมืด
  Claude วิเคราะห์คอร์ปัส ExoPriors แล้วสรุปงานวิจัยหลักและผลลัพธ์ออกมา โดยชี้ว่าผลของ DESI อาจเปลี่ยนทิศทางการค้นคว้าทฤษฎีสตริงได้
  โดยเฉพาะบทความ arXiv:2511.23463 อธิบายปรากฏการณ์ “phantom crossing” ของพลังงานมืดด้วยการผสม axion-dilaton
  ต่อไปฉันวางแผนจะขยายงานวิจัยโดยใส่พารามิเตอร์ (w₀, wₐ) เข้าไปในฟังก์ชัน fitting และเพิ่มพลวัตของ axionเข้าไป
  บทความที่เกี่ยวข้อง: รายงานของ BBC
การใช้แฟลก “dangerously-skip-permissions” ร่วมกับข้อความที่ไม่ปลอดภัยนั้นเสี่ยงมาก
อินพุตที่มาจากอินเทอร์เน็ตอาจมี prompt injection ปะปนอยู่ จึงควรรันในสภาพแวดล้อม sandbox เท่านั้น
- วันนี้ฉันก็เพิ่งเริ่มรัน Claude ใน devcontainer เหมือนกัน เลยสงสัยว่ามีตัวเลือก sandboxแบบไหนที่ง่ายที่สุดบ้าง
ฉันกำลังหาวิธีคิวรีข้อมูลยีนและโปรตีนในเอกสารเสริม (Supplementary Material) ของงานวิจัยชีววิทยาศาสตร์
ตอนนี้การทำดัชนียังไม่เป็นระบบ ทำให้ข้อมูลเชิงลึกจากงานวิจัยจีโนมตลอด 15 ปีที่ผ่านมาถูกกลบไป
ถ้าใช้ข้อมูล open access ก็น่าจะทำให้แนวทางนี้ใช้ได้ผล
- ฉันก็เคยทำอะไรคล้ายกัน — papers2dataset
  มันใช้ OpenAlex สำรวจกราฟการอ้างอิง และวิเคราะห์ PDF แบบ open access
  ฉันใช้มันเพื่อหาสารป้องกันการเยือกแข็ง (cryoprotective agents) ตามอุณหภูมิ แต่ก็น่าจะขยายไปใช้กับปัญหาของคุณได้
คำอย่าง “intelligence explosion” กับ “ARBITRARY SQL + VECTOR ALGEBRA” ฟังดูเหมือนศัพท์เทคนิคที่พูดเกินจริง
- ไม่ได้พูดเกินจริง ตอนนี้มันคือยุคของเครื่องเร่งการระเบิดของปัญญาซอฟต์แวร์จริง ๆ
  ด้วย Opus 4.5 และ GPT-5.2-Codex-xhigh ความเร็วในการพัฒนาเพิ่มขึ้นแบบระเบิด
  Scry เป็นเครื่องมือเดียวที่สามารถรัน SQL แบบอิสระบนคอร์ปัสขนาดใหญ่ และทดลองการผสมเวกเตอร์ได้อย่างเสรี
การผสานพรอมต์กับชุดข้อมูลภายนอกคือช่องทางการสำรวจที่ง่ายและทรงพลังที่สุดในตอนนี้
มันเหมือน “curl | bash” ที่ช่วยให้ทดลองอะไรได้อย่างรวดเร็ว
- ใช่เลย การผสาน Prompt + Tool + External Dataset มีศักยภาพมหาศาล
มีการบอกว่าเป็นเครื่องมือวิจัยแบบ “state-of-the-art” แต่ก็สงสัยว่าอะไรคือสิ่งที่ล้ำสมัยจริง ๆ
- เพราะขนาดไง มีเครื่องมือกี่ตัวกันที่สามารถคิวรีข้อความเต็มของบทความ arXiv ทั้งหมดได้
- มันก็เป็นแค่คำทางการตลาดเท่านั้น ไม่ใช่คำที่มีการคุ้มครอง ใคร ๆ ก็ใช้ได้
  อย่างเช่นโมเดล Gemma ก็ถูกเรียกว่า “state-of-the-art” แม้ประสิทธิภาพจะด้อยกว่าคู่แข่ง
  Juicero ตอนเปิดตัวก็ถือว่าล้ำสมัย แต่สุดท้ายใช้มือบีบยังดีกว่า
- ตัวเครื่องมือล้ำสมัย แต่แหล่งข้อมูลเป็นของเก่าในเชิงประวัติศาสตร์
- ก็เลยสงสัยว่า “ดีที่สุด” หมายถึง “มาก่อนใคร” หรือเปล่า
ตอนนี้ฉันกำลังพัฒนาระบบวิจัยวิชาการแบบอัตโนมัติ และวางแผนจะรวมโปรเจกต์นี้เข้าไปด้วย
ตอนนี้ใช้ Edison Scientific API และพรอมต์ที่ปรับแต่งเองอยู่ เลยสงสัยว่ามีแผนจะโอเพนซอร์สไหม
โปรเจกต์ที่เกี่ยวข้อง: gia-agentic-short
- อยากเปิดเป็นโอเพนซอร์สเหมือนกัน แต่พูดตรง ๆ ว่าตอนนี้หาเลี้ยงชีพลำบาก
  ถ้ามีเงินถึง $5,000 ก็น่าจะเปิดได้ทันที

Alignment Scry ของ ExoPriors สำหรับสืบค้นดัชนี 600GB จาก Hacker News, arXiv และอื่นๆ ผ่าน Claude Code

ภาพรวม

การผสานรวมกับ Claude และแนวทางการเข้าถึง

ความสามารถหลัก

การจัดการ query และประสิทธิภาพ

โครงสร้างข้อมูลและวิว

การดำเนินการเวกเตอร์และความสามารถในการผสมผสาน

การค้นหาแบบไฮบริดและตัวอย่าง

ขนาดระบบและเงื่อนไขการให้บริการ

สรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News