1 คะแนน โดย GN⁺ 6 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • VocabOwl เป็นเครื่องมือ Scientific Word Count ที่ประเมินจำนวนคำภาษาอังกฤษที่ผู้ใช้รู้จริง โดยอิงจากคำภาษาอังกฤษ 171,476 คำ
  • หากต้องการดูผลลัพธ์ ต้องทำ ชาเลนจ์ 100 ข้อ ซึ่งเป็นวิธีประมาณขนาดคลังคำศัพท์ทั้งหมดจากแบบทดสอบสั้น
  • มีการระบุว่าใช้วิธี การสุ่มตัวอย่างแบบแบ่งชั้น (stratified sampling) ในการออกแบบข้อคำถาม
  • เว็บไซต์ชูการใช้ Gemini 3 Flash AI และรวม AI ไว้ในวิธีสร้างและดำเนินการแบบทดสอบคำศัพท์
  • เป็นโปรเจกต์ที่ได้รับแรงบันดาลใจจากพอดแคสต์ The Rest Is Science รวมถึง Prof. Hannah Fry และ Michael Stevens

แบบทดสอบที่ VocabOwl มีให้

  • VocabOwl เป็นบริการ ประเมินจำนวนคำศัพท์ภาษาอังกฤษ ที่มีคำถามหลักว่า “How many of the 171,476 English words do you actually know?”
  • ผู้ใช้สามารถทำชาเลนจ์จำนวน 100 ข้อ เพื่อดูว่าตนเองรู้จักคำภาษาอังกฤษกี่คำ
  • มีการระบุว่าข้อสอบถูกออกแบบด้วยวิธี scientifically stratified

วิธีการทำงานและที่มาของแรงบันดาลใจ

  • บนเว็บไซต์ระบุว่า Stratified Sampling เป็นวิธีหลัก
  • เทคโนโลยีที่ใช้ระบุเป็น Gemini 3 Flash AI
  • แหล่งที่มาของแรงบันดาลใจที่ระบุคือพอดแคสต์ The Rest Is Science, Prof. Hannah Fry และ Michael Stevens

1 ความคิดเห็น

 
GN⁺ 6 시간 전
ความคิดเห็นจาก Hacker News
  • จำนวน การคลิกต่อคำมากเกินไป ถึงจะชอบควิซแนว “รู้จักคำศัพท์กี่คำ” แบบนี้เลยทำจนจบ แต่โดยรวมยังสงสัยเรื่องการจัดหมวดหมู่
    แม้ภาพรวมใหญ่ ๆ จะเป็นว่าคำช่วงต้นง่ายและคำช่วงท้ายยาก แต่ระดับกลาง ๆ ปะปนกันพอสมควร breviary หายากกว่าจะเรียกระดับกลางมาก และคำประเภทโรคกลัวอย่าง Hippopotomonstrosesquippedaliophobia ก็ใกล้เคียงกับมุกที่เด็กประถมเปิดพจนานุกรมมาอวดมากกว่าจะเป็นคำที่ใช้จริง การจัด metamorphosis กับ kinetic ไว้ระดับ expert ก็ชวนให้ยากจะเข้าใจ
    คำจำกัดความเองส่วนใหญ่ก็พอดูออก แต่การอธิบาย lethargy ว่า “สภาวะไร้เรี่ยวแรง” นั้นตรงเกินไป, การมอง complacent ว่าเป็น “ความยโสแบบพอใจตัวเอง” ก็แรงเกิน, magnanimous ไม่จำเป็นต้องมี “คู่แข่ง” อยู่ในความหมาย, และ gauche ก็ถ้าแปลแค่ “เก้ ๆ กัง ๆ ทางสังคม” จะพลาดนัยของ tactless ไป
    บอกว่า “เป็นวิทยาศาสตร์” แต่กลับโยนสูตรมาแบบคร่าว ๆ โดยไม่อธิบายเลยว่า ตอนแรกแบ่งชั้นคำศัพท์อย่างไร ถ้าการสุ่มตัวอย่างแบบ stratified sampling เป็นวิธีที่ได้รับการยอมรับอย่างเป็นทางการสำหรับเรื่องนี้ ก็น่าจะมีลิงก์อ้างอิงงานจริงมาให้ด้วย ผมคิดว่าตัวเองรู้คำศัพท์เยอะนะ แต่ค่าประมาณเกิน 75k ที่แอปนี้ให้มายังเชื่อยาก

    • บางข้อผมว่าก็โอเคอยู่นะ breviary สำหรับผมเป็นคำคุ้นเคยและไม่ได้หายาก กว้างขวางพอสมควรในหมู่คาทอลิก และถ้าสนใจศิลปะยุคกลางหรือหนังสือก็มีโอกาสรู้จักสูง
      มันเป็นหนึ่งในประเภทหนังสือหลักก่อนยุคแท่นพิมพ์ ดังนั้นถ้าคุณนึกถึงภาพต้นฉบับประดับลวดลาย ครึ่งหนึ่งอาจมาจากสิ่งนี้ก็ได้
      ส่วน Hippopotomonstrosesquippedaliophobia ดูเหมือนตั้งใจไม่ได้ให้ท่องทั้งคำ แต่ให้ดูส่วนประกอบแล้วเดาความหมาย ผมรู้จัก sesquippedalian อยู่แล้ว, phobia ก็ดูออกง่าย และ hippo ก็พอเดาได้ว่าน่าจะเอนเอียงไปทางรากศัพท์ละตินความหมายว่า “ใหญ่” มากกว่าสัตว์
      complacent กับ gauche ผมก็เคยเห็นใช้แบบนั้น และถ้าเปิดพจนานุกรม อย่างแย่ก็น่าจะเป็นนิยามลำดับที่ 2 หรือ 3 เลยไม่ติดใจอะไร สมัยก่อนผมเคยทำผลงานดีใน spelling bee และถ้ามีวินัยพอจะนั่งอ่านพจนานุกรมทุกสุดสัปดาห์ครั้งละหลายชั่วโมง ก็คงขึ้นไปได้อีก
    • หนึ่งในคำท้าย ๆ คือ kerfuffle ซึ่งเป็นคำที่เจอบ่อยพอสมควร ส่วน Zenzizenzizenzic ผมไม่เคยได้ยินมาก่อน แต่เหมือนจะตอบถูก
      ถ้ามีสรุปโชว์ว่าคำตอบที่ผมเลือกข้อไหนถูกและข้อไหนผิดก็น่าจะดีขึ้นมาก
    • เห็นด้วยว่า complacent โดยเนื้อแท้แล้วอาจไม่ได้ smug ขนาดนั้น แต่แปลกดีที่ทั้ง dictionary.com และ Wiktionary ต่างก็ใส่ smug ไว้เป็นคำพ้องหรือเป็นส่วนหนึ่งของคำจำกัดความ
      เพียงแต่ว่าฝั่งนั้นก็วิเคราะห์ smug คล้าย self-satisfied หรือ self-complacent เหมือนกัน ดังนั้นสิ่งที่ดูไม่ตรงความรู้สึกอาจเป็นเพราะความหมายของ smug เอง สำหรับผม smug ไม่ได้เป็นแค่ลักษณะ “พอใจในตัวเอง-” แบบเดี่ยว ๆ แต่เป็นเชิงสัมพันธ์มากกว่า คือมีอารมณ์ของการเพลิดเพลินกับการอยู่เหนือใครบางคน ส่วน complacent โดยพื้นฐานคือพอใจกับสถานะของตัวเอง แต่ก็มักมีนัยลบพ่วงมาว่าควรลงมือทำให้ดีขึ้นแต่กลับไม่ทำ
    • น่าสนใจที่มันขึ้นหน้าแรกของ HN ได้ ทั้งที่แทบไม่ดูเหมือนเป็นการทดสอบแบบ adaptive เลย
    • ถึงจะไม่รู้จัก Hippopotomonstrosesquippedaliophobia ก็ยังเดาถูกได้ง่ายมากในตัวเลือกสี่ข้อ
      แต่ละคำต้องคลิกเยอะเกินไปเลยใช้เวลาจบนาน และเพราะมีตัวเลือกให้ดู คำที่ไม่รู้ก็เดาได้ง่ายเกิน
  • ไอเดียน่าสนใจ แต่ต้องทำถึง 100 คำ ถือว่าเยอะพอควร การต้องไล่ผ่านคำง่าย ๆ ช่วงต้นมันน่าเบื่อ จนผมหมดความสนใจก่อนจะไปเจอคำที่น่าสนุก
    ระบบแบบนี้น่าจะเก็บคะแนนกับค่าความเชื่อมั่นภายในไว้ แล้วปรับเทียบให้เร็วขึ้นได้มาก ตอนแรกความเชื่อมั่นต่ำและจะค่อย ๆ สูงขึ้นเมื่อทำไปเรื่อย ๆ ช่วงต้นตอบถูกหรือตอบผิดก็ควรทำให้คะแนนขยับแรง แล้วค่อย ๆ นิ่งลงทีหลัง
    ในทางปฏิบัติ ตอนแรกมันควรไล่คำที่พบได้น้อยลงเรื่อย ๆ พอตอบผิดก็ย้อนกลับไปคำที่ง่ายกว่า แล้วถ้าเริ่มตอบถูกอีก สุดท้ายก็ควรวนอยู่แถวระดับของผู้ใช้เอง และจำนวนคลิกต่อคำก็เยอะเกินไปด้วย เป็นแบบทดสอบสบาย ๆ อยู่แล้ว แค่คลิกคำจำกัดความครั้งเดียวก็ควรนับเลย ถ้ากังวลเรื่องกดพลาดก็ใส่ปุ่ม undo เอา

    • ควรสมมติด้วยว่าอาจมีการกดผิด แล้วเอาเรื่องนั้นไปคิดใน การคำนวณความเชื่อมั่น ด้วย ต่อให้เป็นคนฉลาดที่สุดในโลก บางครั้งก็ยังกดพลาดแบบธรรมดา ๆ หรือมีเส้นประสาทผิดเส้นทำงานแวบขึ้นมาได้
    • เห็นด้วยกับข้อแรกมาก โดยเฉพาะ ผมทำไปประมาณ 10 คำแล้วก็ออก เพราะเส้นทางที่จะไปขั้นถัดไปมันไม่ชัดเจน
    • มันไม่ยากขึ้นพอด้วย แถมมีคำจำนวนมากที่เป็นคำยาว ๆ หรือคำเกี่ยวกับนิสัยชอบพูดยืดยาวเสียเอง
    • บนมือถือ ปุ่มส่ง อยู่ล่างจอเลยต้องเลื่อนหน้าจอ พอเลื่อนไปครั้งหนึ่งแล้วตำแหน่งก็ดูโอเคอยู่
    • จุดที่ต้องคลิกก็ห่างกันเกินไป บนโน้ตบุ๊กต้องคอยลากเคอร์เซอร์ขึ้นลงเพื่อเลือกคำตอบและกดยืนยัน
      ถ้าใส่ตัวอักษรหรือตัวเลขกำกับแต่ละตัวเลือกแล้วให้กดผ่านคีย์บอร์ดได้ก็น่าจะดี ผมจำได้ว่าเมื่อก่อนมีบริการฟอร์มแบบนั้นและทำงานได้ค่อนข้างดี น่าจะเป็น Typeform พอลองเปิดไปดูเพื่อเช็ก กลับเห็นแต่การพูดถึง AI เต็มไปหมด จนหมดอารมณ์จะตรวจต่อ
  • นอกจากข้อสังเกตอื่น ๆ แล้ว ยังมี ข้อผิดพลาดเชิงโครงสร้างที่ทำให้การคำนวณถูกแค่ครึ่งเดียว ด้วย จะมองว่าผิด 100% เลยก็ยังได้ ขึ้นอยู่กับวิธีนับ
    ฉันเป็นเจ้าของภาษาอังกฤษ เป็นพวกหนอนหนังสือสายเนิร์ด ได้คะแนน SAT เต็ม และตอบถูกครบทั้ง 100 คำโดยไม่ค้นหาอะไรเลย แต่ “SCIENTIFIC ESTIMATE” กลับบอกแค่ว่าฉันรู้ 85,000 คำจาก 170,000 คำ เลยงงมาก
    ถ้าดูหน้าสุดท้าย “How is this calculated” จะบอกว่าอ้างอิง Oxford English Dictionary Second Edition ซึ่งมีคำที่ยังใช้อยู่ราว 171,476 คำ แล้วแบ่งช่วงความยากเป็น Core Basics 3,000, Intermediate 7,000, Advanced 10,000, Expert 25,000, The Obscure 40,000+ โดยคะแนนรวมคือผลบวกของ ความแม่นยำในแต่ละช่วง × ขนาดของช่วง
    แต่พอรวมทุกช่วงเข้าด้วยกันก็ได้แค่ 85,000 ดังนั้นถึงจะได้คะแนนสมบูรณ์แบบก็ยังออกมาเพียง 50% แถมยังใช้เพียงชุดย่อยของภาษา ที่จำกัดมากและอาจไม่เป็นตัวแทนของระดับความยากได้ดีนัก น่ารักดีแต่ก็ผิดหลายจุด

    • เห็นเหมือนกันทุกอย่าง ตอบถูกทั้ง 100 ข้อและได้ผลลัพธ์เหมือนกัน
      ตามปกติของแบบทดสอบคำศัพท์ภาษาอังกฤษ ถ้ารู้ภาษากรีกก็ได้เปรียบมากในระดับยาก
    • การเลือก “คำขั้นสูง” ดูแปลก ๆ หน่อย คำ obscure ก็ไม่ได้ obscure ขนาดนั้น
      มีคำเฉพาะทางอยู่บ้าง แต่ส่วนใหญ่เป็นคำที่น่าจะได้ยินแม้ในบทสนทนาธรรมดา ๆ ทาง Radio 4
    • หลายข้อทำได้เพราะใน 4 ตัวเลือกมี 3 ข้อที่ดูไม่เข้าท่าอย่างชัดเจน ถ้าตั้งใจจะประเมินจริง ๆ อยากให้มี ปุ่ม “ไม่รู้” มากกว่าให้เดาสุ่มว่าข้อไหนถูก
    • ดูเหมือนทำด้วย AI ชัด ๆ
    • ฉันตอบถูกราว 80 ข้อ แล้วได้ 57k
  • ฉันได้ 78,000 ซึ่งถือว่าดีมากสำหรับคนที่ใช้เป็นภาษาที่สอง ดูเหมือนค่าสูงสุดของแบบทดสอบนี้จะอยู่ที่ 85,000
    ตัวเลือกดูเหมือนสร้างโดย LLM และมีแพตเทิร์นบางอย่าง เช่น “now” กับ “forever” โผล่มาบ่อย
    เมื่อหลายปีก่อนฉันเคยเล่นเกมคล้าย ๆ กัน ที่ถ้าตอบติดกันถูกพอสมควรก็จะเลเวลขึ้น และถ้าผิดหนึ่งข้อก็จะลดลง เล่นต่อได้เรื่อย ๆ พอไปถึงเลเวลสูงมากกลับยิ่งง่ายขึ้น เพราะมีคำอังกฤษโบราณปนมา และคำพวกนั้นแทบจะเหมือนกับภาษาแม่ของฉันคือดัตช์เลย จำได้ว่ามีองค์ประกอบเพื่อการกุศลด้วย น่าจะเป็น https://freerice.com/ แต่ตอนนี้ดูเหมือนเกมจะถูกทำให้ง่ายลงแล้ว
    ที่ Ghent University ในเบลเยียมก็เคยมีแบบทดสอบที่น่าสนใจ และใช้ประเมินความชำนาญโดยเทียบกับคะแนนเฉลี่ยของผู้มีระดับการศึกษาต่าง ๆ ตอนนั้นฉันได้ประมาณ 41,000 และเหมือนจะถูกจัดว่าอยู่ในระดับค่าเฉลี่ยของเจ้าของภาษาอังกฤษที่จบมหาวิทยาลัย https://languagehat.com/ghent-vocabulary-test/ ในอัปเดตด้านล่างของหน้านั้นมีบอกว่าแบบทดสอบย้ายไปไหน และมีทางเลือกอื่นอีกบางอัน

  • ค่อนข้างสนุกดี
    อยากให้ตัด ปุ่มส่งคำตอบ ออกไป แล้วพอกดเลือกก็เฉลยว่าถูกหรือผิด จากนั้นประมาณ 1 วินาทีก็ค่อยไปข้อถัดไป การต้องกดส่งสองครั้งทำให้เสียจังหวะ
    อีกอย่าง สำหรับคำที่ฉันเจอ หนึ่งใน 4 ตัวเลือกเป็นคำตอบ หนึ่งข้อเป็นคำตรงข้ามของคำตอบ และอีกสองข้อก็แทบสุ่มมา จริง ๆ แล้วตัวเลือกที่ไม่มีคำตรงข้ามโผล่มาด้วยแทบจะข้ามได้เลย

    • ถ้ามี คีย์ลัดบนคีย์บอร์ด ก็จะทำ 100 คำได้ลื่นขึ้นมาก ใช้ 1~4 เลือกตัวเลือก, Enter เพื่อส่งคำตอบ และควรแก้ปัญหาหน้าจอกระตุกขยับด้วย
    • ระบบประเมินฉันที่ 74k แต่รู้สึกว่าอาจสูงเกินจริง เพราะแม้ไม่รู้คำตอบก็เดาจากบรรยากาศของตัวเลือกได้บ่อย และตัวลวงก็ไม่น่าเชื่อพอ
      อย่างแรกเลย คำตอบที่แยกออกเป็นคำอังกฤษธรรมดา ๆ ได้ง่ายมักตัดทิ้งได้ เพราะถ้ามันแยกความหมายได้ง่ายขนาดนั้นก็คงไม่ obscure ตั้งแต่แรก
      การเขียน ตัวเลือกหลอก สำหรับข้อสอบแบบปรนัยเป็นเรื่องยาก ในบรรดาข้อสอบที่ฉันรู้จัก ถ้าไม่นับพวกที่ต้องคำนวณหรือท่องจำ ข้อสอบใบประกอบวิชาชีพแพทย์แห่งชาติของโปแลนด์ LEK ทำเรื่องนี้ได้ดีแทบโหดร้าย คนที่อยู่นอกสายแทบเป็นไปไม่ได้เลยที่จะเดาจากความรู้สึกแล้วได้เกินกว่าความน่าจะเป็นแบบสุ่ม
    • ถ้าแค่เผลอโดนหน้าจอโทรศัพท์ผิด ไม่ได้กดคำตอบผิดจริง ๆ แต่กลับถูกนับว่าผิด ฉันคงเกลียดมาก
  • ควรตอบได้ด้วยว่า “ไม่รู้” การตอบถูกด้วยโอกาส 1/4 ทั้งที่ไม่รู้จริงมันไม่ยุติธรรม และถ้าใช้เทคนิคทำข้อสอบปรนัยทั่วไปก็อาจตอบถูกได้มากกว่านั้นอีก
    มีอยู่ไม่กี่คำที่ฉันเต็มใจให้คิดว่าตัวเองตอบผิด แต่ระบบกลับนับว่าถูก

    • ฉันทำครบทั้ง 100 คำ และมันไม่ใช่แค่ 1/4 ด้วยซ้ำ สำหรับคำยาก ๆ ถ้ามีคำอธิบายอันหนึ่งยาวกว่าอันอื่นมาก มักจะเป็นคำตอบ แถมยังมีรูปแบบอื่นอีก เช่น ปกติสองตัวเลือกจะเป็นสิ่งของบางอย่าง ซึ่งดูเหมือนแทบไม่เคยเป็นคำตอบจริง
      ระดับความยากก็ควรคละกันหน่อย ราว ๆ 30 คำสุดท้ายรู้สึกเหมือนงานใช้แรงงานที่น่าเบื่อ แต่ไอเดียโดยรวมก็ดี
    • ถ้าให้ตอบแบบ ใช่/ไม่ใช่ ว่ารู้ความหมายของแต่ละคำไหม น่าจะง่ายและเร็วกว่า แบบนั้นแม้ 100 คำก็ไล่ดูได้ไว และถ้ามีคีย์ลัดสำหรับแต่ละตัวเลือกด้วยก็คงดี
    • บางข้อฉันอนุมานคำนิยามที่ถูกจากการเทียบตัวเลือกเข้าด้วยกัน
    • การบังคับให้เดาอาจมีความหมายมากกว่าก็ได้ เพราะเราพอเดาจากองค์ประกอบของคำที่เรารู้
      อย่างแย่ที่สุดก็ยังปรับชดเชยโอกาสเดาถูก 25% ได้
  • ข้อนี้ ใช้เทคนิคทำข้อสอบผ่านได้ค่อนข้างง่าย หลายตัวเลือกไม่ได้ดูเหมือนคำนิยามของคำเลย และโครงสร้างแบบ “คำตอบ + ความหมายตรงข้าม + อีก 2 ข้อที่ไม่เกี่ยว” ก็โผล่บ่อย ช่วงหลัง ๆ คำตอบที่ยาวที่สุดยังเป็นคำตอบบ่อยมากด้วย การออกแบบตัวเลือกหลอกไม่ดี
    ชุดคำตัวอย่างก็เอนเอียงหนักไปทางแนวคิดเกี่ยวกับคำพูด การพูด ผู้พูด และการโน้มน้าวใจ น่าจะเป็นเพราะตอนให้ LLM เลือกคำ ระบบอาจได้รับพรอมป์ต์ในลักษณะงานเกี่ยวกับ “คำศัพท์” เลยทำให้เลือกคำที่เกี่ยวกับ “คำ” ออกมาเยอะ
    ขอเล่าพื้นหลังหน่อย ฉันเป็นผู้ใช้ภาษาที่สอง เป็นพวกคลั่งไคล้ภาษาศาสตร์ และใช้ภาษาอังกฤษเป็นหลักในบริบทวิชาการกับวิชาชีพ ฉันผสมเทคนิคข้างต้นแล้วได้ 75,400 แต่ความจริงอาจใกล้แค่ 10~15k
    ดีไซน์ก็ดูออกทันทีว่า Duolingo มาก จนเหมือนแบบเจ็บปวด

    • ฉันต้องไปหา English คำว่า lumbago เพราะมีคำนิยามอย่าง “อาการปวดแปลบที่หลัง” ในภาษาเยอรมันมีคำที่สีสันกว่ามากคือ Hexenschuss
      คิดว่าถ้าอายุพอสมควร คนส่วนใหญ่คงเห็นตรงกันว่าทุกภาษาน่าจะมีคำสำหรับอาการปวดแบบนี้
    • ตัวเลือกที่มีเครื่องหมายอัฒภาคเป็นคำตอบทั้งหมด
    • เห็นหน้า landing page ปุ๊บก็รู้เลยว่าคล้าย Duolingo
  • ฉันตอบถูก 88 จาก 100 แต่สิ่งที่ได้เรียนรู้จากตรงนั้นมีแค่ว่า ฉันเดาเก่งพอตัว 20 คำหรือประมาณนั้นฉันตอบถูกได้จากการตัดตัวเลือกที่ไม่น่าใช้ออก หรือเดาจากความหมายของส่วนประกอบของคำ
    ถ้าอยากประเมินจำนวนคำที่ฉันรู้จริงกับจำนวนคำที่ฉันตอบถูกได้อย่างซื่อสัตย์กว่านี้ ก็ควรมีตัวเลือก “ไม่รู้”

  • ถ้าจะหาระดับได้เร็วขึ้น ควรใช้ คะแนน ELO การฝืนทำคำศัพท์พื้นฐาน 100 คำอย่างยากลำบากไม่มีความหมาย

  • กำลังใช้ตัวเลข 171,476 ของ OED แบบไม่แม่นยำ และเป็นวิธีที่เข้าใจทั้งพจนานุกรมและภาษาอย่างผิดอย่างมาก
    ตัวเลขนี้หมายถึงจำนวน full entry ของคำที่นิยามว่าเป็น “current use” ใน Oxford English Dictionary ฉบับพิมพ์ครั้งที่สอง 20 เล่ม ไม่ได้หมายถึงจำนวนคำทั้งหมด และยังไม่รวมการสะกดแบบแปรผัน รูปผัน วลี และรายการ run-on ของ OED ทั้งหมด
    ยิ่งไปกว่านั้น OED ก็ไม่ใช่รายการคำภาษาอังกฤษที่สมบูรณ์ครบถ้วนแต่อย่างใด ที่จริงแล้วเพราะรอบการอัปเดตช้ามาก จึงมีความเป็นไปได้สูงว่ามีคำอีกหลายล้านคำที่ตกหล่นไป ในฐานะบรรณาธิการพจนานุกรมและนักพจนานุกรมศาสตร์ ฉันใช้ OED ทุกวัน และคนที่ทำมันขึ้นมาก็รู้เรื่องนี้เช่นกัน