- Alignment Scry ของ ExoPriors เป็นแพลตฟอร์มที่ค้นหา เอกสาร 60M รายการและ embeddings 22M รายการ ที่รวบรวมจาก arXiv, Hacker News, LessWrong และแหล่งอื่นๆ ได้ด้วย SQL และการดำเนินการเวกเตอร์ผ่าน Claude Code
- มีการให้ API key สาธารณะ และรองรับทั้ง การค้นหาข้อความแบบ BM25 และ การค้นหาเชิงความหมายบนพื้นฐาน pgvector cosine distance
- สามารถแยกใช้งาน การค้นหาแบบตัวอย่างที่รวดเร็ว และ การค้นหาแบบสมบูรณ์ ได้ผ่านฟังก์ชัน
alignment.search() และ alignment.search_exhaustive()
- สามารถตั้งค่าอย่างง่ายใน Claude Web หรือสภาพแวดล้อม Claude Code เพื่อเรียกใช้ API ได้ พร้อมมีแฮนเดิลส่วนตัว (
@handle) และความสามารถในการจัดเก็บ embeddings
- เปิดให้ใช้งานฟรีสำหรับนักวิจัย และมีความสำคัญในฐานะสภาพแวดล้อมทดลองสำหรับการสืบค้นข้อมูลขนาดใหญ่เพื่อ งานวิจัย AI และการทำงานอัตโนมัติด้านการสำรวจข้อมูล
ภาพรวม
- Alignment Scry เป็นระบบค้นหาที่สามารถดำเนินการ SQL และพีชคณิตเวกเตอร์กับ ดัชนีเอกสารที่เกี่ยวข้องกับการระเบิดของปัญญา
- แหล่งข้อมูลหลัก ได้แก่ arXiv, Hacker News, LessWrong, community-archive.org เป็นต้น
- ผู้ใช้สามารถสำรวจข้อมูลผ่าน Claude Code ด้วยคำถามภาษาธรรมชาติหรือคำสั่ง SQL
- ระบบยังอยู่ใน ขั้น Alpha เชิงทดลอง และยังมี Lens Studio ซึ่งเป็นเครื่องมือสำรวจที่เน้น LessWrong รวมอยู่ด้วย
การผสานรวมกับ Claude และแนวทางการเข้าถึง
- สามารถใช้งานได้ทันทีผ่าน การตั้งค่าการเข้าถึง API ใน Claude Code หรือ Claude Web
- อนุญาตการรันโค้ด การสร้างไฟล์ การเข้าถึงเครือข่าย และเพิ่ม
api.exopriors.com ลงในโดเมนไวต์ลิสต์
- เข้าถึงได้โดยไม่ต้องล็อกอินผ่าน API key สาธารณะ
exopriors_public_readonly_v1_2025
- สามารถใช้ตัวเลือก
--dangerously-skip-permissions เพื่อไม่ให้โมเดล Claude ต้องผ่านขั้นตอนขออนุมัติผู้ใช้ทุกครั้งที่มีการเรียก API (มีความเสี่ยง)
- แนะนำให้ใช้โมเดล Opus 4.5 ขึ้นไป และระบุไว้อย่างชัดเจนว่ามีความเสี่ยงจาก prompt injection attack
ความสามารถหลัก
- Query: รัน SQL query กับเอกสาร 60 ล้านรายการ
- Embed: จัดเก็บและนำ embeddings กลับมาใช้ซ้ำเพื่อการค้นหาเชิงความหมาย
- Timeout: ปรับอัตโนมัติราว 20–120 วินาทีตามภาระงาน
- เป้าหมายการค้นหา: เอกสารหลายประเภท เช่น post, comment, paper, tweet
- Lexical Search: ค้นหาคีย์เวิร์ด ค้นหาวลี และ fuzzy matching บนพื้นฐาน BM25
- Semantic Search: ค้นหาความหมายใกล้เคียงด้วย pgvector cosine distance (
<=>)
การจัดการ query และประสิทธิภาพ
alignment.search() จะคืนผลลัพธ์ BM25 อันดับสูงสุดเพียง 100 รายการ เหมาะกับ การสุ่มตัวอย่างเพื่อสำรวจอย่างรวดเร็ว
alignment.search_exhaustive() ทำ การค้นหาแบบสมบูรณ์ และรองรับ pagination
- แนวทางด้านประสิทธิภาพ
- การค้นหาแบบง่าย: 1–5 วินาที
- embedding join (ไม่เกิน 500,000 แถว): 5–20 วินาที
- การ aggregate ที่ซับซ้อน (ไม่เกิน 2,000,000 แถว): 20–60 วินาที
- การสแกนขนาดใหญ่ (มากกว่า 5,000,000 แถว): อาจ timeout ได้เมื่อระบบมีโหลด
- มี การแสดงสรุปก่อนรัน query และขั้นตอนยืนยันจากผู้ใช้ เพื่อป้องกันการโอเวอร์โหลด
- ระบบระบุ query ที่หนักโดยอัตโนมัติจากเกณฑ์อย่าง LIMIT, estimated_rows, ขนาด join เป็นต้น
โครงสร้างข้อมูลและวิว
- มี materialized view ภายในสคีมา
alignment
- ตัวอย่าง:
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments เป็นต้น
- คอลัมน์สำคัญ:
entity_id, uri, source, kind, original_author, title, score, embedding เป็นต้น
- สามารถ join กับตาราง
alignment.entities เพื่อเข้าถึงเมทาดาทาได้
- มีฟังก์ชัน
alignment.author_topics() สำหรับวิเคราะห์ความเชื่อมโยงระหว่างหัวข้อเฉพาะกับผู้เขียน
การดำเนินการเวกเตอร์และความสามารถในการผสมผสาน
<=>: ตัวดำเนินการ pgvector cosine distance (ยิ่งใกล้ 0 ยิ่งคล้ายกัน)
@handle: อ้างอิงเวกเตอร์ที่บันทึกไว้
- การผสมเวกเตอร์: เช่น
scale(@rigor,.6) - scale(@hype,.3) เพื่อผสมน้ำหนักของแนวคิด
- การลดอคติ: ลบอิทธิพลของหัวข้อเฉพาะด้วย
debias_vector(@axis, @topic)
- สามารถคำนวณ เวกเตอร์ศูนย์กลาง (centroid) เพื่อแทนความหมายเฉลี่ยของผู้เขียนหรือยุคสมัย
- สามารถคำนวณ การเปลี่ยนแปลงตามเวลา (temporal delta) เพื่อติดตามการเปลี่ยนแปลงทางแนวคิด
การค้นหาแบบไฮบริดและตัวอย่าง
- รองรับ การค้นหาแบบผสาน Lexical + Semantic
- ตัวอย่าง: รูปแบบ
WITH hits AS (search(...)) <=> @q สำหรับจัดเรียงผู้สมัครจากข้อความใหม่ด้วยเวกเตอร์เชิงความหมาย
- ตัวอย่าง BM25
alignment.search('corrigibility')
alignment.search('\"inner alignment\"')
- ตัวอย่าง SQL
- คำนวณรายชื่อผู้เขียนอันดับต้นๆ ของหัวข้อเฉพาะ
- ใช้
alignment.search_exhaustive() สำหรับทำ pagination ของผลลัพธ์ขนาดใหญ่
ขนาดระบบและเงื่อนไขการให้บริการ
- มี เอกสารมากกว่า 65M รายการ, embeddings มากกว่า 22M รายการ, และ ดัชนีมากกว่า 600GB
- ให้ใช้ฟรีสำหรับนักวิจัย พร้อมโควตา embedding token 1.5M
- เมื่อสร้างบัญชี จะได้รับเนมสเปซแฮนเดิลส่วนตัว timeout ที่ยาวขึ้น (สูงสุด 10 นาที) และขีดจำกัด query ที่ขยายเพิ่ม
สรุป
- Alignment Scry คือ แพลตฟอร์มสำหรับ query ข้อมูลงานวิจัย AI ขนาดใหญ่ที่ผสานกับ Claude และรองรับการค้นหาแบบไฮบริดที่รวม SQL กับการดำเนินการเวกเตอร์
- ผ่าน API สาธารณะและแนวทางการเขียน query ที่ชัดเจน ระบบมอบ การเข้าถึงข้อมูลเชิงทดลองสำหรับนักวิจัยและนักพัฒนา AI
- ด้วย ดัชนีระดับ 600GB และเอกสารมากกว่า 60 ล้านรายการ จึงสร้างสภาพแวดล้อมสำหรับทำงานอัตโนมัติด้านการสำรวจที่เกี่ยวข้องกับ AI alignment และการวิจัยด้านปัญญา
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันชอบตรงที่โปรเจกต์นี้ไม่ได้เป็นแค่แชตบอตแบบกล่องดำ แต่สร้าง SQL ขึ้นมา
แทนที่จะใช้ LLM เป็นฐานข้อมูล ฉันคิดว่าทิศทางที่ถูกต้องคือใช้มันเป็นเครื่องมือสำหรับแปลภาษาธรรมชาติเป็นภาษาคิวรีเชิงโครงสร้าง
แต่ก็สงสัยว่าได้ทำ timeout หรือ sandboxing ไว้หรือไม่ เพื่อป้องกันการนำ API ไปใช้ในทางที่ผิด
และก็สงสัยด้วยว่ามี semantic bleeding ระหว่างชุดข้อมูลต่างกันหรือไม่ — เช่น “optimization” อาจถูกใช้คนละความหมายใน ArXiv, LessWrong และ HN
ตัววางแผนคิวรี SQL ก็ยังทรงพลังเมื่อจัดการกับวิวและดัชนีจำนวนมาก
เราใส่ใจเรื่องความปลอดภัยและ rate-limit มากเช่นกัน และใช้การแยกวิเคราะห์ AST เพื่อบล็อก join ที่อันตราย
Claude สามารถใช้การผสม centroid ของเวกเตอร์เพื่อลดความต่างของความหมายระหว่างโดเมนต่าง ๆ
ตัวอย่างเช่น สามารถนำ embedding ของคำว่า “optimization” จาก LessWrong กับ ArXiv มาเฉลี่ยเพื่อทำการทดลองเปรียบเทียบได้
ฉันสรุปขั้นตอนการทำไว้ในบทความบล็อก
ตอนนี้เป็นไคลเอนต์สำหรับ macOS แต่กำลังเตรียมเอนจินสำหรับ Linux อยู่
ขอบเขตการใช้งานของการตีความและแปลภาษาธรรมชาตินั้นกว้างมาก
ท้ายที่สุดแล้วเงินลงทุนก็น่าจะไหลไปสู่เครื่องมือที่ใช้งานได้จริงแบบนี้
ยิ่งโมเดลใหญ่ ก็ยิ่งแยกความหมายที่ต่างกันของคำเดียวกันได้ดีขึ้น
เป็นโปรเจกต์ที่ยอดเยี่ยมมาก ฉันตั้งใจจะลองใช้กับงานวิจัยทฤษฎีสตริงที่กำลังทำอยู่เพื่อค้นหา Calabi–Yau manifold ทันที
หลังจากทำวิจัยร่วมกับ Claude มันก็หางานวิจัยสองฉบับเกี่ยวกับ flux vacua ที่ใช้ genetic algorithm เจอ และการผสาน SQL + BM25 ก็ทำให้ค้นหาได้ละเอียดมาก
แต่การ escape เครื่องหมายอัญประกาศใน bash ค่อนข้างยุ่งยาก และเพราะข้อจำกัด 100 รายการของ alignment.search() จึงต้องใช้ search_exhaustive() ถึงจะได้ผลลัพธ์ครบถ้วน
Claude วิเคราะห์คอร์ปัส ExoPriors แล้วสรุปงานวิจัยหลักและผลลัพธ์ออกมา โดยชี้ว่าผลของ DESI อาจเปลี่ยนทิศทางการค้นคว้าทฤษฎีสตริงได้
โดยเฉพาะบทความ arXiv:2511.23463 อธิบายปรากฏการณ์ “phantom crossing” ของพลังงานมืดด้วยการผสม axion-dilaton
ต่อไปฉันวางแผนจะขยายงานวิจัยโดยใส่พารามิเตอร์ (w₀, wₐ) เข้าไปในฟังก์ชัน fitting และเพิ่มพลวัตของ axionเข้าไป
บทความที่เกี่ยวข้อง: รายงานของ BBC
การใช้แฟลก “dangerously-skip-permissions” ร่วมกับข้อความที่ไม่ปลอดภัยนั้นเสี่ยงมาก
อินพุตที่มาจากอินเทอร์เน็ตอาจมี prompt injection ปะปนอยู่ จึงควรรันในสภาพแวดล้อม sandbox เท่านั้น
ฉันกำลังหาวิธีคิวรีข้อมูลยีนและโปรตีนในเอกสารเสริม (Supplementary Material) ของงานวิจัยชีววิทยาศาสตร์
ตอนนี้การทำดัชนียังไม่เป็นระบบ ทำให้ข้อมูลเชิงลึกจากงานวิจัยจีโนมตลอด 15 ปีที่ผ่านมาถูกกลบไป
ถ้าใช้ข้อมูล open access ก็น่าจะทำให้แนวทางนี้ใช้ได้ผล
มันใช้ OpenAlex สำรวจกราฟการอ้างอิง และวิเคราะห์ PDF แบบ open access
ฉันใช้มันเพื่อหาสารป้องกันการเยือกแข็ง (cryoprotective agents) ตามอุณหภูมิ แต่ก็น่าจะขยายไปใช้กับปัญหาของคุณได้
คำอย่าง “intelligence explosion” กับ “ARBITRARY SQL + VECTOR ALGEBRA” ฟังดูเหมือนศัพท์เทคนิคที่พูดเกินจริง
ด้วย Opus 4.5 และ GPT-5.2-Codex-xhigh ความเร็วในการพัฒนาเพิ่มขึ้นแบบระเบิด
Scry เป็นเครื่องมือเดียวที่สามารถรัน SQL แบบอิสระบนคอร์ปัสขนาดใหญ่ และทดลองการผสมเวกเตอร์ได้อย่างเสรี
การผสานพรอมต์กับชุดข้อมูลภายนอกคือช่องทางการสำรวจที่ง่ายและทรงพลังที่สุดในตอนนี้
มันเหมือน “curl | bash” ที่ช่วยให้ทดลองอะไรได้อย่างรวดเร็ว
มีการบอกว่าเป็นเครื่องมือวิจัยแบบ “state-of-the-art” แต่ก็สงสัยว่าอะไรคือสิ่งที่ล้ำสมัยจริง ๆ
อย่างเช่นโมเดล Gemma ก็ถูกเรียกว่า “state-of-the-art” แม้ประสิทธิภาพจะด้อยกว่าคู่แข่ง
Juicero ตอนเปิดตัวก็ถือว่าล้ำสมัย แต่สุดท้ายใช้มือบีบยังดีกว่า
ตอนนี้ฉันกำลังพัฒนาระบบวิจัยวิชาการแบบอัตโนมัติ และวางแผนจะรวมโปรเจกต์นี้เข้าไปด้วย
ตอนนี้ใช้ Edison Scientific API และพรอมต์ที่ปรับแต่งเองอยู่ เลยสงสัยว่ามีแผนจะโอเพนซอร์สไหม
โปรเจกต์ที่เกี่ยวข้อง: gia-agentic-short
ถ้ามีเงินถึง $5,000 ก็น่าจะเปิดได้ทันที