1 คะแนน โดย GN⁺ 2026-01-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Alignment Scry ของ ExoPriors เป็นแพลตฟอร์มที่ค้นหา เอกสาร 60M รายการและ embeddings 22M รายการ ที่รวบรวมจาก arXiv, Hacker News, LessWrong และแหล่งอื่นๆ ได้ด้วย SQL และการดำเนินการเวกเตอร์ผ่าน Claude Code
  • มีการให้ API key สาธารณะ และรองรับทั้ง การค้นหาข้อความแบบ BM25 และ การค้นหาเชิงความหมายบนพื้นฐาน pgvector cosine distance
  • สามารถแยกใช้งาน การค้นหาแบบตัวอย่างที่รวดเร็ว และ การค้นหาแบบสมบูรณ์ ได้ผ่านฟังก์ชัน alignment.search() และ alignment.search_exhaustive()
  • สามารถตั้งค่าอย่างง่ายใน Claude Web หรือสภาพแวดล้อม Claude Code เพื่อเรียกใช้ API ได้ พร้อมมีแฮนเดิลส่วนตัว (@handle) และความสามารถในการจัดเก็บ embeddings
  • เปิดให้ใช้งานฟรีสำหรับนักวิจัย และมีความสำคัญในฐานะสภาพแวดล้อมทดลองสำหรับการสืบค้นข้อมูลขนาดใหญ่เพื่อ งานวิจัย AI และการทำงานอัตโนมัติด้านการสำรวจข้อมูล

ภาพรวม

  • Alignment Scry เป็นระบบค้นหาที่สามารถดำเนินการ SQL และพีชคณิตเวกเตอร์กับ ดัชนีเอกสารที่เกี่ยวข้องกับการระเบิดของปัญญา
    • แหล่งข้อมูลหลัก ได้แก่ arXiv, Hacker News, LessWrong, community-archive.org เป็นต้น
    • ผู้ใช้สามารถสำรวจข้อมูลผ่าน Claude Code ด้วยคำถามภาษาธรรมชาติหรือคำสั่ง SQL
  • ระบบยังอยู่ใน ขั้น Alpha เชิงทดลอง และยังมี Lens Studio ซึ่งเป็นเครื่องมือสำรวจที่เน้น LessWrong รวมอยู่ด้วย

การผสานรวมกับ Claude และแนวทางการเข้าถึง

  • สามารถใช้งานได้ทันทีผ่าน การตั้งค่าการเข้าถึง API ใน Claude Code หรือ Claude Web
    • อนุญาตการรันโค้ด การสร้างไฟล์ การเข้าถึงเครือข่าย และเพิ่ม api.exopriors.com ลงในโดเมนไวต์ลิสต์
  • เข้าถึงได้โดยไม่ต้องล็อกอินผ่าน API key สาธารณะ exopriors_public_readonly_v1_2025
  • สามารถใช้ตัวเลือก --dangerously-skip-permissions เพื่อไม่ให้โมเดล Claude ต้องผ่านขั้นตอนขออนุมัติผู้ใช้ทุกครั้งที่มีการเรียก API (มีความเสี่ยง)
  • แนะนำให้ใช้โมเดล Opus 4.5 ขึ้นไป และระบุไว้อย่างชัดเจนว่ามีความเสี่ยงจาก prompt injection attack

ความสามารถหลัก

  • Query: รัน SQL query กับเอกสาร 60 ล้านรายการ
  • Embed: จัดเก็บและนำ embeddings กลับมาใช้ซ้ำเพื่อการค้นหาเชิงความหมาย
  • Timeout: ปรับอัตโนมัติราว 20–120 วินาทีตามภาระงาน
  • เป้าหมายการค้นหา: เอกสารหลายประเภท เช่น post, comment, paper, tweet
  • Lexical Search: ค้นหาคีย์เวิร์ด ค้นหาวลี และ fuzzy matching บนพื้นฐาน BM25
  • Semantic Search: ค้นหาความหมายใกล้เคียงด้วย pgvector cosine distance (<=>)

การจัดการ query และประสิทธิภาพ

  • alignment.search() จะคืนผลลัพธ์ BM25 อันดับสูงสุดเพียง 100 รายการ เหมาะกับ การสุ่มตัวอย่างเพื่อสำรวจอย่างรวดเร็ว
  • alignment.search_exhaustive() ทำ การค้นหาแบบสมบูรณ์ และรองรับ pagination
  • แนวทางด้านประสิทธิภาพ
    • การค้นหาแบบง่าย: 1–5 วินาที
    • embedding join (ไม่เกิน 500,000 แถว): 5–20 วินาที
    • การ aggregate ที่ซับซ้อน (ไม่เกิน 2,000,000 แถว): 20–60 วินาที
    • การสแกนขนาดใหญ่ (มากกว่า 5,000,000 แถว): อาจ timeout ได้เมื่อระบบมีโหลด
  • มี การแสดงสรุปก่อนรัน query และขั้นตอนยืนยันจากผู้ใช้ เพื่อป้องกันการโอเวอร์โหลด
  • ระบบระบุ query ที่หนักโดยอัตโนมัติจากเกณฑ์อย่าง LIMIT, estimated_rows, ขนาด join เป็นต้น

โครงสร้างข้อมูลและวิว

  • มี materialized view ภายในสคีมา alignment
    • ตัวอย่าง: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments เป็นต้น
    • คอลัมน์สำคัญ: entity_id, uri, source, kind, original_author, title, score, embedding เป็นต้น
  • สามารถ join กับตาราง alignment.entities เพื่อเข้าถึงเมทาดาทาได้
  • มีฟังก์ชัน alignment.author_topics() สำหรับวิเคราะห์ความเชื่อมโยงระหว่างหัวข้อเฉพาะกับผู้เขียน

การดำเนินการเวกเตอร์และความสามารถในการผสมผสาน

  • <=>: ตัวดำเนินการ pgvector cosine distance (ยิ่งใกล้ 0 ยิ่งคล้ายกัน)
  • @handle: อ้างอิงเวกเตอร์ที่บันทึกไว้
  • การผสมเวกเตอร์: เช่น scale(@rigor,.6) - scale(@hype,.3) เพื่อผสมน้ำหนักของแนวคิด
  • การลดอคติ: ลบอิทธิพลของหัวข้อเฉพาะด้วย debias_vector(@axis, @topic)
  • สามารถคำนวณ เวกเตอร์ศูนย์กลาง (centroid) เพื่อแทนความหมายเฉลี่ยของผู้เขียนหรือยุคสมัย
  • สามารถคำนวณ การเปลี่ยนแปลงตามเวลา (temporal delta) เพื่อติดตามการเปลี่ยนแปลงทางแนวคิด

การค้นหาแบบไฮบริดและตัวอย่าง

  • รองรับ การค้นหาแบบผสาน Lexical + Semantic
    • ตัวอย่าง: รูปแบบ WITH hits AS (search(...)) <=> @q สำหรับจัดเรียงผู้สมัครจากข้อความใหม่ด้วยเวกเตอร์เชิงความหมาย
  • ตัวอย่าง BM25
    • alignment.search('corrigibility')
    • alignment.search('\"inner alignment\"')
  • ตัวอย่าง SQL
    • คำนวณรายชื่อผู้เขียนอันดับต้นๆ ของหัวข้อเฉพาะ
    • ใช้ alignment.search_exhaustive() สำหรับทำ pagination ของผลลัพธ์ขนาดใหญ่

ขนาดระบบและเงื่อนไขการให้บริการ

  • มี เอกสารมากกว่า 65M รายการ, embeddings มากกว่า 22M รายการ, และ ดัชนีมากกว่า 600GB
  • ให้ใช้ฟรีสำหรับนักวิจัย พร้อมโควตา embedding token 1.5M
  • เมื่อสร้างบัญชี จะได้รับเนมสเปซแฮนเดิลส่วนตัว timeout ที่ยาวขึ้น (สูงสุด 10 นาที) และขีดจำกัด query ที่ขยายเพิ่ม

สรุป

  • Alignment Scry คือ แพลตฟอร์มสำหรับ query ข้อมูลงานวิจัย AI ขนาดใหญ่ที่ผสานกับ Claude และรองรับการค้นหาแบบไฮบริดที่รวม SQL กับการดำเนินการเวกเตอร์
  • ผ่าน API สาธารณะและแนวทางการเขียน query ที่ชัดเจน ระบบมอบ การเข้าถึงข้อมูลเชิงทดลองสำหรับนักวิจัยและนักพัฒนา AI
  • ด้วย ดัชนีระดับ 600GB และเอกสารมากกว่า 60 ล้านรายการ จึงสร้างสภาพแวดล้อมสำหรับทำงานอัตโนมัติด้านการสำรวจที่เกี่ยวข้องกับ AI alignment และการวิจัยด้านปัญญา

1 ความคิดเห็น

 
GN⁺ 2026-01-01
ความคิดเห็นจาก Hacker News
  • ฉันชอบตรงที่โปรเจกต์นี้ไม่ได้เป็นแค่แชตบอตแบบกล่องดำ แต่สร้าง SQL ขึ้นมา
    แทนที่จะใช้ LLM เป็นฐานข้อมูล ฉันคิดว่าทิศทางที่ถูกต้องคือใช้มันเป็นเครื่องมือสำหรับแปลภาษาธรรมชาติเป็นภาษาคิวรีเชิงโครงสร้าง
    แต่ก็สงสัยว่าได้ทำ timeout หรือ sandboxing ไว้หรือไม่ เพื่อป้องกันการนำ API ไปใช้ในทางที่ผิด
    และก็สงสัยด้วยว่ามี semantic bleeding ระหว่างชุดข้อมูลต่างกันหรือไม่ — เช่น “optimization” อาจถูกใช้คนละความหมายใน ArXiv, LessWrong และ HN

    • ใช่ บางครั้งผู้คนต้องการความแม่นยำและการควบคุม
      ตัววางแผนคิวรี SQL ก็ยังทรงพลังเมื่อจัดการกับวิวและดัชนีจำนวนมาก
      เราใส่ใจเรื่องความปลอดภัยและ rate-limit มากเช่นกัน และใช้การแยกวิเคราะห์ AST เพื่อบล็อก join ที่อันตราย
      Claude สามารถใช้การผสม centroid ของเวกเตอร์เพื่อลดความต่างของความหมายระหว่างโดเมนต่าง ๆ
      ตัวอย่างเช่น สามารถนำ embedding ของคำว่า “optimization” จาก LessWrong กับ ArXiv มาเฉลี่ยเพื่อทำการทดลองเปรียบเทียบได้
    • ฉันก็ทำแนวทางคล้ายกัน คือทำบันทึกบทสนทนา Claude Code และ Codex ให้เป็นฐานข้อมูลในเครื่อง เพื่อให้คิวรีจาก CLI ได้ทันที
      ฉันสรุปขั้นตอนการทำไว้ในบทความบล็อก
      ตอนนี้เป็นไคลเอนต์สำหรับ macOS แต่กำลังเตรียมเอนจินสำหรับ Linux อยู่
    • ฉันคิดว่านี่แหละคือ “นวัตกรรมจริงที่จะยังอยู่ต่อให้ฟองสบู่ AI แตก”
      ขอบเขตการใช้งานของการตีความและแปลภาษาธรรมชาตินั้นกว้างมาก
      ท้ายที่สุดแล้วเงินลงทุนก็น่าจะไหลไปสู่เครื่องมือที่ใช้งานได้จริงแบบนี้
    • ยังไม่มีการทดลอง แต่จากประสบการณ์ ขนาดของโมเดล embedding ส่งผลต่อการแยกความหมายของคำ
      ยิ่งโมเดลใหญ่ ก็ยิ่งแยกความหมายที่ต่างกันของคำเดียวกันได้ดีขึ้น
  • เป็นโปรเจกต์ที่ยอดเยี่ยมมาก ฉันตั้งใจจะลองใช้กับงานวิจัยทฤษฎีสตริงที่กำลังทำอยู่เพื่อค้นหา Calabi–Yau manifold ทันที
    หลังจากทำวิจัยร่วมกับ Claude มันก็หางานวิจัยสองฉบับเกี่ยวกับ flux vacua ที่ใช้ genetic algorithm เจอ และการผสาน SQL + BM25 ก็ทำให้ค้นหาได้ละเอียดมาก
    แต่การ escape เครื่องหมายอัญประกาศใน bash ค่อนข้างยุ่งยาก และเพราะข้อจำกัด 100 รายการของ alignment.search() จึงต้องใช้ search_exhaustive() ถึงจะได้ผลลัพธ์ครบถ้วน

    • ฉันก็ใช้เครื่องมือนี้ไปดูงานวิจัยล่าสุดของ DESI เรื่องการเปลี่ยนแปลงของพลังงานมืด
      Claude วิเคราะห์คอร์ปัส ExoPriors แล้วสรุปงานวิจัยหลักและผลลัพธ์ออกมา โดยชี้ว่าผลของ DESI อาจเปลี่ยนทิศทางการค้นคว้าทฤษฎีสตริงได้
      โดยเฉพาะบทความ arXiv:2511.23463 อธิบายปรากฏการณ์ “phantom crossing” ของพลังงานมืดด้วยการผสม axion-dilaton
      ต่อไปฉันวางแผนจะขยายงานวิจัยโดยใส่พารามิเตอร์ (w₀, wₐ) เข้าไปในฟังก์ชัน fitting และเพิ่มพลวัตของ axionเข้าไป
      บทความที่เกี่ยวข้อง: รายงานของ BBC
  • การใช้แฟลก “dangerously-skip-permissions” ร่วมกับข้อความที่ไม่ปลอดภัยนั้นเสี่ยงมาก
    อินพุตที่มาจากอินเทอร์เน็ตอาจมี prompt injection ปะปนอยู่ จึงควรรันในสภาพแวดล้อม sandbox เท่านั้น

    • วันนี้ฉันก็เพิ่งเริ่มรัน Claude ใน devcontainer เหมือนกัน เลยสงสัยว่ามีตัวเลือก sandboxแบบไหนที่ง่ายที่สุดบ้าง
  • ฉันกำลังหาวิธีคิวรีข้อมูลยีนและโปรตีนในเอกสารเสริม (Supplementary Material) ของงานวิจัยชีววิทยาศาสตร์
    ตอนนี้การทำดัชนียังไม่เป็นระบบ ทำให้ข้อมูลเชิงลึกจากงานวิจัยจีโนมตลอด 15 ปีที่ผ่านมาถูกกลบไป
    ถ้าใช้ข้อมูล open access ก็น่าจะทำให้แนวทางนี้ใช้ได้ผล

    • ฉันก็เคยทำอะไรคล้ายกัน — papers2dataset
      มันใช้ OpenAlex สำรวจกราฟการอ้างอิง และวิเคราะห์ PDF แบบ open access
      ฉันใช้มันเพื่อหาสารป้องกันการเยือกแข็ง (cryoprotective agents) ตามอุณหภูมิ แต่ก็น่าจะขยายไปใช้กับปัญหาของคุณได้
  • คำอย่าง “intelligence explosion” กับ “ARBITRARY SQL + VECTOR ALGEBRA” ฟังดูเหมือนศัพท์เทคนิคที่พูดเกินจริง

    • ไม่ได้พูดเกินจริง ตอนนี้มันคือยุคของเครื่องเร่งการระเบิดของปัญญาซอฟต์แวร์จริง ๆ
      ด้วย Opus 4.5 และ GPT-5.2-Codex-xhigh ความเร็วในการพัฒนาเพิ่มขึ้นแบบระเบิด
      Scry เป็นเครื่องมือเดียวที่สามารถรัน SQL แบบอิสระบนคอร์ปัสขนาดใหญ่ และทดลองการผสมเวกเตอร์ได้อย่างเสรี
  • การผสานพรอมต์กับชุดข้อมูลภายนอกคือช่องทางการสำรวจที่ง่ายและทรงพลังที่สุดในตอนนี้
    มันเหมือน “curl | bash” ที่ช่วยให้ทดลองอะไรได้อย่างรวดเร็ว

    • ใช่เลย การผสาน Prompt + Tool + External Dataset มีศักยภาพมหาศาล
  • มีการบอกว่าเป็นเครื่องมือวิจัยแบบ “state-of-the-art” แต่ก็สงสัยว่าอะไรคือสิ่งที่ล้ำสมัยจริง ๆ

    • เพราะขนาดไง มีเครื่องมือกี่ตัวกันที่สามารถคิวรีข้อความเต็มของบทความ arXiv ทั้งหมดได้
    • มันก็เป็นแค่คำทางการตลาดเท่านั้น ไม่ใช่คำที่มีการคุ้มครอง ใคร ๆ ก็ใช้ได้
      อย่างเช่นโมเดล Gemma ก็ถูกเรียกว่า “state-of-the-art” แม้ประสิทธิภาพจะด้อยกว่าคู่แข่ง
      Juicero ตอนเปิดตัวก็ถือว่าล้ำสมัย แต่สุดท้ายใช้มือบีบยังดีกว่า
    • ตัวเครื่องมือล้ำสมัย แต่แหล่งข้อมูลเป็นของเก่าในเชิงประวัติศาสตร์
    • ก็เลยสงสัยว่า “ดีที่สุด” หมายถึง “มาก่อนใคร” หรือเปล่า
  • ตอนนี้ฉันกำลังพัฒนาระบบวิจัยวิชาการแบบอัตโนมัติ และวางแผนจะรวมโปรเจกต์นี้เข้าไปด้วย
    ตอนนี้ใช้ Edison Scientific API และพรอมต์ที่ปรับแต่งเองอยู่ เลยสงสัยว่ามีแผนจะโอเพนซอร์สไหม
    โปรเจกต์ที่เกี่ยวข้อง: gia-agentic-short

    • อยากเปิดเป็นโอเพนซอร์สเหมือนกัน แต่พูดตรง ๆ ว่าตอนนี้หาเลี้ยงชีพลำบาก
      ถ้ามีเงินถึง $5,000 ก็น่าจะเปิดได้ทันที