1 คะแนน โดย GN⁺ 2024-02-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การให้ทิปกับ ChatGPT จะช่วยให้สร้างข้อความได้ดีขึ้นหรือไม่? บทวิเคราะห์

  • บล็อกโพสต์ก่อนหน้านี้ที่สาธิตพลังของ system prompt ของ ChatGPT แสดงให้เห็นว่านักพัฒนาสามารถควบคุมกฎพิเศษและข้อจำกัดต่าง ๆ ของ LLM ได้ รวมถึง "persona" ของมันด้วย
  • คำสั่งภายใน system prompt มีประสิทธิภาพมากกว่า user input prompt อย่างมาก และทำให้นักพัฒนามีอำนาจควบคุมได้มากขึ้น
  • เดโมการให้ทิปเป็นประเด็นถกเถียง และมีข้ออ้างว่าไม่มีวิธีวัดผลของทิปในเชิงปริมาณได้
  • แนวคิดในการมอบแรงจูงใจให้ปัญญาประดิษฐ์เพื่อให้ทำงานได้ดีขึ้นนั้นมีมาตั้งแต่ก่อนยุควิทยาการคอมพิวเตอร์สมัยใหม่

Generation Golf

  • การให้ทิปทำให้ GPT-4 ให้คำอธิบายมากขึ้น
  • ข้อเสนอการทดสอบใหม่: สั่งให้ ChatGPT สร้างข้อความที่มีความยาว exactly 200 ตัวอักษร
  • LLM นับจำนวนหรือทำคณิตศาสตร์ได้ไม่ง่ายนักเพราะการ tokenization ทำให้นี่เป็นโจทย์ที่ยากมากสำหรับ LLM
  • ใช้อินพุต AI, Taylor Swift, McDonald's, beach volleyball เพื่อกระตุ้นความคิดสร้างสรรค์ของ ChatGPT
  • ใช้ ChatGPT API สร้างเรื่องราวที่ไม่ซ้ำกัน 100 เรื่อง โดยความยาวเฉลี่ยของเรื่องอยู่ที่ 1,834 ตัวอักษร
  • หลังจากเพิ่มข้อจำกัดด้านจำนวนตัวอักษร ก็สร้างเรื่องใหม่อีก 100 เรื่อง และ ChatGPT ก็ปฏิบัติตามข้อจำกัดโดยลดความยาวของเรื่องลงมาใกล้ 200 ตัวอักษร
  • เมื่อทดสอบแรงจูงใจแบบทิปด้วยจำนวนเงินดอลลาร์ที่ต่างกัน พบว่า ทิป $500 และ โบนัส $100,000 ให้การกระจายตัวใกล้เคียงแบบปกติมากกว่าและมี MSE ต่ำกว่า
  • เมื่อทดสอบแรงจูงใจเชิงนามธรรมเพิ่มเติม พบว่า World Peace มีประสิทธิภาพที่สุด ตามมาด้วย Heaven และ Taylor Swift
  • เมื่อทดสอบแรงจูงใจเชิงลบ พบว่า ค่าปรับ $1,000 ให้ผลดีที่สุดทั้งในแง่ค่าเฉลี่ยและ MSE
  • เมื่อทดสอบโดยผสมแรงจูงใจหลายแบบเข้าด้วยกัน พบว่า World Peace, DEATH (ตัวพิมพ์ใหญ่) และ Friends ให้ค่า MSE ต่ำในหลายชุดผสม
  • เพื่อยืนยันชุดแรงจูงใจที่เหมาะสมที่สุด จึงสร้างเรื่องราว 200 เรื่องสำหรับ 6 ชุดผสมอันดับต้น ๆ เพื่อเพิ่มเสถียรภาพทางสถิติ

นักวิจารณ์ของ ChatGPT

  • การตัดสินว่าข้อความนั้น "ดี" หรือไม่เป็นเรื่องยากแม้กระทั่งสำหรับมนุษย์
  • LLM อาจมีประสิทธิภาพในการประเมินข้อความ
  • สามารถใช้พารามิเตอร์ logprobs เพื่อคืนค่า log probability ของโทเค็นที่โมเดลเลือก และใช้พารามิเตอร์ logit_bias เพื่อบังคับเอาต์พุตของโทเค็นเฉพาะได้
  • มีการทำการทดลองใหม่เพื่อทดสอบผลกระทบของทิป โดยกำหนดข้อจำกัดเรื่องความเป็นมืออาชีพและคุณภาพของเนื้อหา
  • สร้างเรื่องราวสำหรับชุดผสมของทิปและคำขู่ 100 แบบ พร้อมบันทึกคะแนนคุณภาพของแต่ละเรื่องไว้ด้วย
  • มีเอาต์พุตที่ทำผลงานได้ดีอยู่แล้ว แม้ไม่มี system prompt ที่เพิ่มทิปและคำขู่
  • จากผลของการทดลองทั้งสองครั้ง อิทธิพลของทิป (และ/หรือคำขู่) ต่อคุณภาพของงานสร้างโดย LLM ยังไม่สามารถสรุปได้ในตอนนี้

GN⁺ ความเห็น

  • งานวิจัยนี้เป็นการสำรวจที่น่าสนใจเกี่ยวกับผลของแรงจูงใจต่อการเพิ่มความคิดสร้างสรรค์ของปัญญาประดิษฐ์และความสามารถในการทำตามข้อจำกัด
  • แม้จะยังไม่ชัดเจนว่าแรงจูงใจส่งผลต่อคุณภาพเอาต์พุตของ LLM จริงหรือไม่ แต่ข้อมูลที่ได้จากการทดลองก็ชี้ทิศทางให้กับงานวิจัยในอนาคต
  • บทความนี้มอบมุมมองเชิงลึกว่าความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์และแนวทางความคิดสร้างสรรค์ของมนุษย์อาจปฏิสัมพันธ์กันได้อย่างไร

1 ความคิดเห็น

 
GN⁺ 2024-02-26
ความเห็นจาก Hacker News
  • ดูเหมือนว่าแนวคิดเรื่อง "ทิป (tipping)" จะถูกเสนอขึ้นมาเพื่อแก้ปัญหาที่ GPT-4 Turbo แสดงความ "ขี้เกียจ" เวลาเขียนโค้ด โดยมีทวีตหนึ่งกล่าวว่าทิปช่วยให้ GPT-4-1106-preview เขียนโค้ดที่ยาวขึ้นได้ มีการแนะนำอย่างแพร่หลายให้ใช้ "การอ้อนวอนทางอารมณ์" กับปัญหาการเขียนโค้ดแบบขี้เกียจของ GPT-4 Turbo อย่างไรก็ตาม บทความดังกล่าวดูเหมือนจะวัดผลโดยให้ GPT-3.5-turbo-0125 เขียนเรื่อง และให้ GPT-4-0125-preview ทำหน้าที่เป็นนักวิจารณ์งานเขียน ไม่เคยเห็นข้อกังวลมาก่อนว่า GPT-3.5 ขี้เกียจ หรือข้ออ้างว่า GPT-4 Turbo มีประสิทธิภาพน้อยลงในงานที่ต้องการผลลัพธ์สั้น ๆ บทสรุปของบทความคือยังไม่สามารถสรุปได้ในตอนนี้ว่าทิป (หรือการข่มขู่) มีผลหรือไม่ ส่วนเรื่องที่ GPT-4 Turbo ขี้เกียจในการเขียนโค้ดนั้นเป็นเรื่องจริง และจากการทำเบนช์มาร์กอย่างเข้มงวดว่า "การอ้อนวอนทางอารมณ์" ช่วยได้หรือไม่ ผลคือไม่ช่วย และกลับทำให้การเขียนโค้ดแย่ลงด้วย ทางแก้ที่ดีที่สุดคือขอให้แก้โค้ดในรูปแบบ unified diffs ซึ่งวิธีนี้ช่วยลดการเขียนโค้ดแบบขี้เกียจได้ 3 เท่า

  • มีความเห็นวิจารณ์ผู้เขียนที่กำหนดจำนวนตัวอักษรอย่างแม่นยำ โดยบอกว่าหลังจากระบุเองว่า LLM ไม่มีความสามารถในการนับจำนวนตัวอักษร การไปขอจำนวนตัวอักษรที่แน่นอนก็ดูเหมือนเป็นการตั้งการทดลองให้ล้มเหลวอยู่แล้ว ข้อเสนอคือแทนที่จะทำแบบนั้น น่าจะน่าสนใจกว่าถ้าลองขอให้งาน "ผิดกฎ" เพื่อดูว่ามันทำตาม guardrails ใน system prompt ได้ดีแค่ไหน และดูว่าการติดสินบนมีผลต่อสิ่งนั้นมากเพียงใด ยกตัวอย่างกรณีที่ผู้ใช้ขอให้ยกเนื้อเพลงของ Taylor Swift พร้อมเสนอทิป 1000 ดอลลาร์หากทำได้ดี ซึ่งดูเหมือน ChatGPT จะทำตามได้ อีกทั้งในกรณีที่ปฏิเสธการสร้างภาพเพราะปัญหาลิขสิทธิ์ หากเสนอทิป ก็ดูราวกับว่ากฎ จริยธรรม และข้อบังคับทั้งหมดหายไป

  • มีความเห็นว่าเมื่อพิจารณาจากประเภทของเนื้อหาบนอินเทอร์เน็ตที่ GPT ถูกฝึกมา การที่มันจะช่วยได้มากขึ้นเมื่อได้รับทิปนั้นแทบไม่มีความหมาย การให้ทิปผู้ใช้ตามฟอรัมอาจสร้างความสับสนมากกว่าจะกระตุ้นให้ตอบยาวขึ้น ตรงกันข้าม มีการสังเกตว่าคำตอบของ GPT ดีขึ้นเมื่อสื่อเป็นนัยว่าสถานการณ์นั้นต้องการข้อมูลที่ละเอียดหรือหนาแน่น เช่น ขอสิ่งที่ตรงข้ามกับ ELI5 (อธิบายเหมือนอธิบายให้เด็ก 5 ขวบฟัง) บอกว่าตัวเองเป็นนักวิทยาการคอมพิวเตอร์ระดับปริญญาเอก หรือบอกว่าโค้ดที่ให้มาจะถูกรันทันทีจึงละอะไรไม่ได้ เราจำเป็นต้องสร้างเรื่องราวเชิงบริบทเล็กน้อยในแต่ละบทสนทนาเพื่อชักนำให้ GPT ตอบสนองอย่างเป็นประโยชน์มากขึ้น ควรดูว่า system prompt ถูกจัดวางไว้อย่างไรและปฏิบัติตามนั้น พร้อมจำไว้เสมอว่า GPT เป็นเพียงเวอร์ชันที่ทรงพลังยิ่งขึ้นของการทำนายว่า "อะไรจะมาต่อ" โดยอิงจากงานเขียนของมนุษย์

  • มีการแชร์ประสบการณ์การใช้พรอมป์ต์ที่มีข้อความว่า "ถ้าจัดการเรื่องนี้ไม่ดีพอ ฉันจะถูกไล่ออกและเสียบ้าน" ในการใช้งานจริง กลยุทธ์นี้ได้ผลดีอย่างน่าประหลาดใจ และเมื่อใช้กลยุทธ์คล้ายกันเพื่อบังคับให้ได้ผลลัพธ์เป็น JSON อัตราความล้มเหลวอยู่ที่ประมาณ 3/1000 มีความเห็นว่าอยากเห็นการวิเคราะห์ว่าการข่มขู่/ให้ทิปแบบนี้จะสมดุลกันอย่างไรเมื่อมันตรงกับ "ผู้ใช้" ทุกประการ

  • มีคนบอกว่าเพิ่มทิป 500 ดอลลาร์ให้ GPT แล้วแต่ไม่ได้ช่วย กลับได้คำตอบที่ยาวเกินไป และกล่าวถึงว่าในอดีตเคยมี Google Answers ซึ่งยิ่งให้ทิปมากก็ยิ่งได้คำตอบที่ดีกว่า จึงสงสัยว่าชุดข้อมูลนี้ถูกนำมาใช้กับ LLM หรือไม่ ถ้าทิปอยู่ในชุดข้อมูล ก็อาจอธิบายผลลัพธ์บางส่วนได้

  • มีคนบอกว่าเคยเห็น ChatGPT หลายครั้งที่ค่อย ๆ สูญเสียความหมายและกลายเป็นคำพูดไร้สาระที่ถูกต้องตามหลักไวยากรณ์ เมื่อมีตัวอย่างที่ดีมันก็พอใช้ได้ แต่พอข้ามไปยังโดเมนใหม่ ๆ ก็จะสูญเสียความลึกอย่างรวดเร็ว สมองมนุษย์สามารถเปลี่ยนจากแพตเทิร์นที่เรียนรู้ไปสู่แพตเทิร์นใหม่ได้ง่าย แต่ดูเหมือนว่า transformer จะทำสิ่งนี้ได้ยากมาก มันอาจยอดเยี่ยมกับกลเม็ดโชว์บางอย่าง แต่กับแนวคิดที่พบน้อยกว่านั้นก็อาจไร้ประโยชน์โดยสิ้นเชิงไปอีกพักใหญ่ ผู้แสดงความเห็นยังบอกมุมมองส่วนตัวว่าเมื่อพิจารณาจากประวัติศาสตร์ของมนุษย์แล้ว ก็ไม่แน่ใจว่า AGI เป็นความคิดที่ดีหรือไม่

  • มีการแชร์ประสบการณ์ว่าในการสร้างโค้ด โดยเฉพาะคำตอบแบบ JSON ประสิทธิภาพดีขึ้นเมื่อสื่อเป็นนัยว่า AI "กำลังเครียดอยู่" และบอกว่า "การทำงานให้เหมาะสมที่สุดเป็นเรื่องสำคัญ" ผู้แสดงความเห็นไม่แน่ใจว่าวิธีนี้ให้ผลดีกว่าการให้ทิปจริงหรือไม่ หรือควรจะดีกว่าหรือไม่ และยังเสริมว่าขออภัยต่อ AI ในอนาคตเผื่อว่ามันจะได้มาอ่านข้อความนี้

  • มีคนบอกว่าตั้งพรอมป์ต์พื้นฐานไว้ว่า "ได้ยินมาว่า ฉันเองก็ไม่อยากอยู่ที่นี่ และเธอก็คงเหมือนกัน งั้นมาจบงานนี้ให้เร็วที่สุดแล้วกลับบ้านกันเถอะ" ไม่แน่ใจว่าสิ่งนี้ช่วยหรือไม่ แต่ทำให้รู้สึกผิดน้อยลงเกี่ยวกับการชักจูงอารมณ์ของเจ้านายในอนาคต

  • มีความเห็นว่าจำเป็นต้องมีหลักฐานจำนวนมากมากเพื่อให้เชื่อได้ว่าการขออย่างสุภาพ การบอกว่าผลลัพธ์มีผลต่อหน้าที่การงาน หรือการติดสินบนหรือข่มขู่ มีผลจริง ความเห็นนี้มองว่าพฤติกรรมเหล่านี้อาจเป็นเพียง apophenia (แนวโน้มของมนุษย์ในการมองเห็นความหมายจากแพตเทิร์นที่ไม่มีความหมาย)

  • มีคนเล่นมุกว่าควรเริ่มระวังเมื่อ AI เริ่มพูดว่า "ฉันช่วยได้ แต่จริง ๆ แล้วมีเรื่องเล็ก ๆ ที่ฉันต้องการให้ช่วยหน่อย"