เบื้องหลังเศรษฐกิจดาวปลอมบน GitHub

(awesomeagents.ai)

5 คะแนน โดย GN⁺ 10 일 전 | 7 ความคิดเห็น | แชร์ทาง WhatsApp

ระบบนิเวศการซื้อขาย Starบน GitHub ก่อตัวขึ้นครอบคลุมทั้งเว็บไซต์เฉพาะทาง แพลตฟอร์มฟรีแลนซ์ เครือข่ายแลกเปลี่ยน และช่องทางปิด โดยจากการวิเคราะห์ช่วงปี 2019 ถึง 2024 พบ ดาวปลอมที่น่าสงสัยราว 6 ล้านดวง กระจายอยู่ในรีโพซิทอรี 18,617 แห่งและบัญชีราว 301,000 บัญชี
ในปี 2024 แคมเปญดาวปลอมเพิ่มขึ้นอย่างรวดเร็ว และพบว่า 16.66% ของรีโพซิทอรีที่มีดาวตั้งแต่ 50 ดวงขึ้นไป มีความเกี่ยวข้อง โดยดาวที่ซื้อยังถูกใช้จริงเพื่อให้ขึ้น GitHub Trending และหลบเลี่ยงอัลกอริทึมการค้นพบของแพลตฟอร์ม
การขายดาวปลอมมีราคาตั้งแต่ 0.03 ดอลลาร์ถึง 0.90 ดอลลาร์ต่อดาว โดยซื้อขายตามคุณภาพบัญชีและวิธีส่งมอบ และยังขยายไปเป็นโครงสร้างพื้นฐานที่รวมถึงเครื่องมือปั่นกราฟการมีส่วนร่วม การขายโปรไฟล์ที่สร้างไว้ล่วงหน้า การรับประกันทดแทน และ API สำหรับสั่งซื้อ
จำนวนดาวบน GitHub เชื่อมโยงโดยตรงกับ ตัวชี้วัดการระดมทุน และถูกใช้เป็นเกณฑ์ในช่วง seed และ Series A ทำให้การซื้อดาวด้วยต้นทุนต่ำก่อให้เกิดวงจรเสริมแรงตัวเองที่นำไปสู่การรับรู้ traction ที่สูงเกินจริงและการระดมทุน
อัตราส่วนดาวต่อฟอร์กและอัตราส่วนดาวต่อ watcher ถูกเสนอเป็น ตัวกรองเบื้องต้นสำหรับตรวจจับการปั่น และแม้นโยบายของ GitHub จะห้ามไว้รวมถึงมีการบังคับใช้กฎของ FTC แล้ว การจัดการบัญชียังเกิดขึ้นน้อยกว่าการลบรีโพซิทอรี จึงยังไม่มีการตอบสนองเชิงโครงสร้างอย่างแท้จริง

ดาวปลอม 6 ล้านดวง

การวิเคราะห์ StarScout โดยนักวิจัยจาก Carnegie Mellon University, North Carolina State University และ Socket ตรวจสอบเมทาดาทา GitHub ขนาด 20TB, อีเวนต์ 6.7 พันล้านรายการ และดาว 326 ล้านดวงตั้งแต่ปี 2019 ถึง 2024 และระบุได้ว่ามี ดาวปลอมที่น่าสงสัยราว 6 ล้านดวง กระจายอยู่ในรีโพซิทอรี 18,617 แห่งและบัญชีราว 301,000 บัญชี
ในปี 2024 แคมเปญดาวปลอมเพิ่มขึ้นอย่างรวดเร็ว โดย ณ เดือนกรกฎาคมพบว่า 16.66% ของรีโพซิทอรีที่มีดาวตั้งแต่ 50 ดวงขึ้นไป มีความเกี่ยวข้อง
- ก่อนปี 2022 แทบอยู่ในระดับใกล้ 0
ในการตรวจสอบความแม่นยำของการตรวจจับ ยังพบด้วยว่ารีโพซิทอรี 90.42% และบัญชี 57.07% ที่ StarScout ระบุไว้ ถูกลบไปแล้ว ณ เดือนมกราคม 2025
- เป็นตัวเลขที่สนับสนุนว่า GitHub เองก็มองว่านี่เป็นกิจกรรมที่ผิดปกติ
ในบรรดารีโพซิทอรีที่ได้รับประโยชน์จากดาวปลอม รีโพซิทอรีที่เกี่ยวข้องกับ AI และ LLM มีขนาดใหญ่ที่สุดในหมวดที่ไม่เป็นอันตราย โดยนับตามจำนวนจริงพบดาวปลอม 177,000 ดวง
- มีการอ้างว่าในนั้นรวมรีโพซิทอรีงานวิจัยและผลิตภัณฑ์ของสตาร์ทอัพด้าน LLM อยู่จำนวนมาก
รีโพซิทอรี 78 แห่งที่ตรวจพบแคมเปญดาวปลอม ได้ขึ้น GitHub Trending ซึ่งแสดงให้เห็นว่าดาวที่ซื้อมาถูกใช้จริงเพื่อหลบเลี่ยงอัลกอริทึมการค้นพบของแพลตฟอร์ม
ในการสืบสวนของ Dagster เมื่อเดือนมีนาคม 2023 วิศวกรได้ซื้อดาวจากผู้ขาย 2 รายโดยตรงเพื่อยืนยันปรากฏการณ์นี้
- GitHub24 ซึ่งเป็นบริษัทจดทะเบียนในเยอรมนี คิดราคา EUR 0.85 ต่อดาว และดาว 100 ดวงยังคงอยู่ครบหลังผ่านไป 1 เดือน
- Baddhi Shop ขายดาว 1,000 ดวงในราคา 64 ดอลลาร์ แต่ระบุว่าอัตราคงอยู่มีเพียงราว 75%

มาร์เก็ตเพลส

ระบบนิเวศการขายดาวบน GitHub ก่อตัวขึ้นครอบคลุมทั้งเว็บไซต์เฉพาะทาง แพลตฟอร์มฟรีแลนซ์ เครือข่ายแลกเปลี่ยน และช่องทางปิด โดยมี เว็บไซต์ที่ยังเคลื่อนไหวอย่างน้อย 12 แห่ง ที่ขายดาว GitHub โดยตรง
- มีการยกตัวอย่าง SocialPlug.io, Buy.fans, Boost-Like.store, GitHubPromoter.com, Followdeh.com, Vurike.com เป็นต้น
ช่วงราคาถูกแบ่งตามคุณภาพบัญชีและวิธีส่งมอบ
- แบบราคาถูกอยู่ที่ 0.03 ถึง 0.10 ดอลลาร์ต่อดาว ส่งภายในไม่กี่วัน ใช้บัญชีใหม่หรือโปรไฟล์ว่าง
- แบบกลางอยู่ที่ 0.20 ถึง 0.50 ดอลลาร์ ส่งภายใน 1 ถึง 2 สัปดาห์ และมีประวัติกิจกรรมบางส่วน
- แบบพรีเมียมอยู่ที่ 0.80 ถึง 0.90 ดอลลาร์ ชูจุดขายว่าค่อย ๆ ส่งมอบอย่างเป็นธรรมชาติ และใช้บัญชีเก่าหลายปีที่มีรีโพซิทอรีและประวัติการมีส่วนร่วม
บน Fiverr ก็มี กิกที่ยังเคลื่อนไหวอยู่ 24 รายการ ที่ขายบริการโปรโมต GitHub โดยดาวและฟอร์กแบบพื้นฐานเริ่มที่ 5 ดอลลาร์ ส่วน "organic promotion" ตั้งราคาไว้ที่ 25 ดอลลาร์ขึ้นไป
- ใช้ถ้อยคำอ้อมหรือคำที่หลบเลี่ยงเพื่อเลี่ยงตัวกรองของแพลตฟอร์ม
ยังมี แพลตฟอร์มแลกดาว อย่าง GithubStarMate.com และ SafeStarExchange.com เปิดให้บริการ โดยใช้รูปแบบดาวตอบแทนกันบนฐานเครดิต
โครงสร้างพื้นฐานไม่ได้หยุดแค่การขายดาว แต่ขยายไปถึงการปั่นกราฟการมีส่วนร่วมบน GitHub
- มีเครื่องมือโอเพนซอร์สอย่างน้อย 7 ตัว เช่น fake-git-history, commit-bot, Commiter ที่มีอยู่เพื่อใช้ปลอมประวัติการมีส่วนร่วมบน GitHub
- โปรไฟล์ GitHub ที่ทำไว้ล่วงหน้าพร้อมประวัติคอมมิต 5 ปีและตรา Arctic Code Vault Contributor ถูกขายบน Telegram ในราคาราว 5,000 ดอลลาร์
ผู้ขายบางรายถึงขั้นมี การรับประกันทดแทน
- Followdeh โฆษณาการรับประกัน 30 วัน
- บริการพรีเมียมสัญญาดาวแบบ "non-drop" ที่จะไม่ถูกตรวจจับโดย GitHub
- SocialPlug อ้างว่าส่งมอบดาว 3.1 ล้านดวงให้ลูกค้ามากกว่า 53,000 ราย และยังมี API สำหรับสั่งซื้อ
งานวิจัย ACSAC 2020 ของ Tsinghua University ได้บันทึกโครงสร้างเชิงพาณิชย์ของกลุ่มโปรโมตบน QQ และ WeChat ในจีนไว้
- มีสมาชิกมากกว่า 1,020 คน และรับงานรีโพซิทอรีราว 20 แห่งต่อวัน
- ประเมินว่ากำไรของผู้โปรโมตอยู่ที่ 3.4 ล้านถึง 4.4 ล้านดอลลาร์ต่อปี

การวิเคราะห์ภายใน: ลักษณะของ stargazer ปลอม

มีการสร้างเครื่องมือวิเคราะห์บนพื้นฐาน GitHub API เพื่อตรวจสอบ 20 รีโพซิทอรี โดยเปรียบเทียบทั้งรีโพซิทอรีที่ StarScout ติดป้ายไว้ รีโพซิทอรี AI ที่เติบโตสูงในดัชนี Runa Capital ROSS Index และรีโพซิทอรีฐานอ้างอิงแบบออร์แกนิก
ในแต่ละรีโพซิทอรีมีการ สุ่มตัวอย่างโปรไฟล์ stargazer อย่างละ 150 บัญชี เพื่อวัดอายุบัญชี จำนวนรีโพซิทอรีสาธารณะ จำนวนผู้ติดตาม และการมีอยู่ของคำแนะนำตัว
ร่องรอยการปั่นถูกพบซ้ำ ๆ ในตัวชี้วัดร่วมไม่กี่อย่าง
- แม้บัญชีจะไม่ได้ใหม่มาก แต่อัตราส่วนของบัญชีว่างกลับสูง
- อัตราส่วนดาวต่อฟอร์กและดาวต่อ watcher ต่ำกว่าระดับของรีโพซิทอรีออร์แกนิกอย่างชัดเจน
ฐานอ้างอิงแบบออร์แกนิก
- ค่าอายุบัญชีกลางของ Flask, LangChain และ AutoGPT อยู่ที่ 4801 วัน, 2967 วัน, 4022 วัน ตามลำดับ ซึ่งสะท้อนว่า stargazer จำนวนมากเป็นกลุ่มนักพัฒนาที่ใช้ GitHub มานาน
- สัดส่วนบัญชีที่ไม่มีรีโพซิทอรีสาธารณะเลยอยู่ที่ 5.3%, 5.9%, 2.0% และสัดส่วน ผู้ติดตาม 0 คน ก็อยู่ในระดับต่ำที่ 10.0%, 11.8%, 5.9%
- สัดส่วน บัญชีผี ของ Flask อยู่ที่ 1.3% และสัดส่วน suspicious accounts ของ Flask·LangChain·AutoGPT ถูกระบุว่าอยู่ที่ 0.0%
- อัตราส่วนดาวต่อฟอร์กอยู่ที่ Flask 0.235, LangChain 0.155, AutoGPT 0.090 สะท้อนว่ามีการใช้งานและดัดแปลงโค้ดจริงในระดับหนึ่ง
- อัตราส่วนดาวต่อ watcher อยู่ที่ Flask 0.029, LangChain 0.006, AutoGPT 0.005
- stargazer ของรีโพซิทอรีออร์แกนิกมีประวัติการใช้งานต่อเนื่องหลายปี มีโปรเจกต์ของตนเอง และมีลักษณะเป็นนักพัฒนาที่ติดตามผู้ใช้อื่น
- บัญชีผี ที่มีรีโพซิทอรี 0, ผู้ติดตาม 0 และไม่มีคำแนะนำตัว ถูกระบุว่ามีเพียงราว 1% ในโครงการที่ถือว่าสุขภาพดี
รีโพซิทอรีบล็อกเชนที่ถูกปั่น
- ค่าอายุบัญชีกลางของ Union Labs, Shardeum, FreeDomain และ Anoma อยู่ในช่วง 997 ถึง 1180 วัน ซึ่งมากพอจะผ่านตัวกรองบัญชีใหม่แบบง่าย ๆ
- แต่ภายในบัญชีกลับว่างเปล่า โดยสัดส่วนบัญชีที่มีรีโพซิทอรีสาธารณะ 0 อยู่ที่ 28.0% ถึง 38.0%, สัดส่วนผู้ติดตาม 0 คนอยู่ที่ 52.0% ถึง 81.3%, และสัดส่วนบัญชีผีอยู่ที่ 19.3% ถึง 28.7%
- อัตราส่วนดาวต่อฟอร์กอยู่ที่ Union Labs 0.052, Shardeum 0.022, FreeDomain 0.017, Anoma 0.121
- อัตราส่วนดาวต่อ watcher ก็ต่ำมากเช่นกัน เช่น FreeDomain อยู่ที่ 0.001
- บัญชีลักษณะนี้ถูกตีความว่าเป็นรูปแบบการซื้อบัญชีเก่าหรือกว้านบัญชีแบบฟาร์มเพื่อนำมาใช้ในแคมเปญเพิ่มดาว
- อัตราส่วนดาวต่อฟอร์กถูกระบุว่าเป็นสัญญาณที่ชัดเจนที่สุด
  - Flask มีฟอร์ก 235 ครั้งต่อดาว 1000 ดวง
  - Shardeum มี 22 ครั้ง
  - FreeDomain มี 17 ครั้ง
- อัตราส่วนดาวต่อ watcher ก็ชี้ไปในทิศทางเดียวกัน โดยค่า 0.001 ของ FreeDomain หมายความว่ามีผู้ใช้เพียงประมาณ 1 คนต่อดาว 1000 ดวงที่คอยติดตามการอัปเดตจริง
FreeDomain
- มี ดาว 157,000 ดวง แต่มี watcher 168 คน และฟอร์ก 2676 ครั้ง
- อัตราส่วนดาวต่อ watcher ต่ำกว่า Flask ถึง 26 เท่า
- ในกลุ่ม stargazer ที่สุ่มตัวอย่างมา 81.3% มีผู้ติดตาม 0 คน แสดงให้เห็นว่าโครงสร้างบัญชีแทบไม่มีฐานกิจกรรมที่มองเห็นได้บน GitHub
Union Labs
- ถูกจัดให้อยู่ อันดับ 1 ของ Runa Capital ROSS Index ในไตรมาส 2 ปี 2025 โดยมีอัตราการเพิ่มขึ้นของดาว 54.2 เท่า และมีดาว 74,300 ดวง
- ในการวิเคราะห์ภายในพบว่ามีบัญชีที่มีรีโพซิทอรีสาธารณะ 0 อยู่ 32.7%, บัญชีผู้ติดตาม 0 คน 52% และอัตราส่วนดาวต่อฟอร์ก 0.052
- ในการวิเคราะห์ของ StarScout ถูกระบุว่าเป็น ดาวปลอมที่น่าสงสัย 47.4%
- สิ่งนี้เผยให้เห็นโครงสร้างที่โครงการซึ่งเกือบครึ่งหนึ่งของดาวอาจถูกสร้างขึ้นอย่างไม่เป็นธรรมชาติ กลับขึ้นไปอยู่บนสุดของรายงานค้นหาการลงทุนที่ทรงอิทธิพลซึ่ง VC ใช้อ้างอิง
หมวด AI
- เมื่อเปรียบเทียบ RagaAI, openai-fm, Langflow และ hermes-agent พบว่าค่าตัวชี้วัดภายในรีโพซิทอรี AI ก็แตกต่างกันมาก
- RagaAI-Catalyst มีสัดส่วนบัญชีผู้ติดตาม 0 คน 76.2% และบัญชีผี 28.0% ซึ่งแทบจะเหมือนกับรูปแบบฝั่งบล็อกเชน
- openai-fm ถูกยกให้เป็นกรณีที่รุนแรงที่สุดในชุดข้อมูลทั้งหมด
  - suspicious accounts 66.0%
  - บัญชีผี 36.0%
  - ค่าอายุบัญชีกลาง 116 วัน
  - stargazer สองในสามมีอายุบัญชีไม่ถึง 1 ปีและแทบไม่มีกิจกรรมบน GitHub
  - StarScout ระบุว่ากรณีนี้น่าจะเป็นบอตจากบุคคลที่สามมากกว่าจะเกี่ยวข้องกับ OpenAI โดยตรง
- Langflow ถูก StarScout ตีธงว่าปลอม 47.9% แต่จากการวิเคราะห์ตัวอย่างโปรไฟล์กลับพบว่ามีค่าอายุบัญชีกลาง 2859 วันและสัดส่วนบัญชีผีต่ำ จึงถือว่าค่อนข้างสะอาด
  - มีการตั้งข้อสังเกตว่าเป็นไปได้ว่าคุณภาพบัญชีดีขึ้นหลังการสแกนของ StarScout
  - อย่างไรก็ตาม อัตราส่วนดาวต่อฟอร์ก 0.060 ก็ยังต่ำ คิดเป็นเพียงประมาณหนึ่งในสี่ของ Flask
- hermes-agent ของ NousResearch ถูกจัดเป็นรีโพซิทอรีที่ค่อนข้างออร์แกนิก
  - ค่าอายุบัญชีกลาง 8 ปี
  - บัญชีผี 6%
  - อัตราส่วนดาวต่อฟอร์ก 0.133
  - แม้จะมีเสียงกล่าวหาว่า astroturfing บน Reddit แต่ stargazer ส่วนใหญ่ถูกวิเคราะห์ว่าเป็นนักพัฒนาจริง
  - แม้สัดส่วนผู้ติดตาม 0 คนจะค่อนข้างสูงเพราะฐานผู้ใช้ที่อยู่ใกล้เคียงกับคริปโต แต่รูปแบบการมีส่วนร่วมพื้นฐานยังถูกประเมินว่าชอบธรรม

เส้นทางที่ดาวกลายเป็นเงินทุน

ความเชื่อมโยงระหว่างจำนวนดาวบน GitHub กับการระดมทุนของสตาร์ตอัปถูกนำเสนอว่าไม่ใช่การคาดเดา แต่เป็นความสัมพันธ์ที่นักลงทุนเป็นผู้บันทึกไว้เอง
Jordan Segall จาก Redpoint Ventures วิเคราะห์บริษัทด้าน developer tools 80 แห่ง และพบว่า ค่ากลางของจำนวนดาวตอนระดมทุนรอบ seed คือ 2850 ดวง และ รอบ Series A คือ 4980 ดวง
- เขาระบุโดยตรงว่า VC จำนวนมากใช้โปรแกรมสแครปภายในเพื่อค้นหาโปรเจกต์ GitHub ที่เติบโตเร็ว และตัวชี้วัดที่ดูบ่อยที่สุดก็คือจำนวนดาว
ตัวเลขนี้ทำให้สตาร์ตอัปมีเป้าหมายเชิงซื้อที่แทบจะเป็นรูปธรรม
- หากใช้ดาวราคาถูก 85 ถึง 285 ดอลลาร์ ก็สามารถปั่นถึงค่ากลาง 2850 ดวงของรอบ seed ได้
- หากใช้ 990 ถึง 4500 ดอลลาร์ ก็สามารถเข้าใกล้ช่วงของ Series A ได้
- เมื่อเทียบกับรอบ seed ทั่วไปที่ 1 ล้านถึง 10 ล้านดอลลาร์ จะคำนวณได้เป็นช่วง ROI ราว 3500 เท่าถึง 117,000 เท่า
Runa Capital เผยแพร่ ROSS Index ทุกไตรมาส โดยจัดอันดับสตาร์ตอัปโอเพนซอร์ส 20 อันดับแรกจากอัตราการเติบโตของดาวบน GitHub
- ตามข้อมูลของ TechCrunch สตาร์ตอัปที่ได้รับเงินลงทุน 68% ระดมทุนได้ในรอบ seed และมูลค่ารวมของรอบที่ติดตามได้อยู่ที่ 169 ล้านดอลลาร์
GitHub เองก็ลงทุนปีละ 10 ล้านดอลลาร์ ผ่าน GitHub Fund ร่วมกับ M12 และใช้ traction บนแพลตฟอร์มเป็นส่วนหนึ่งของเกณฑ์ในการลงทุนในบริษัทโอเพนซอร์สระยะ pre-seed และ seed ปีละ 8 ถึง 10 แห่ง
มีการยกตัวอย่างหลายกรณีที่ดาวนำไปสู่การระดมทุน
- Lovable: มีดาวมากกว่า 50,000 ดวง, ระดมทุน pre-seed 7.5 ล้านดอลลาร์ และจากทีม 45 คนระดม Series A มูลค่า 200 ล้านดอลลาร์ที่ มูลค่ากิจการ 1.8 พันล้านดอลลาร์
- Pangolin**: มีดาว 1000 ดวงในเดือนมกราคม 2025, ผ่าน Y Combinator และภายในเดือนสิงหาคม 2025 ระดมทุน seed ได้ 4.7 ล้านดอลลาร์
- Browser-use**: มีดาว 50,000 ดวงในเวลา 3 เดือน, เข้า Y Combinator W25,** และระดมทุน seed ได้ 17 ล้านดอลลาร์
  - LangChain: ได้รับ เงินลงทุน 10 ล้านดอลลาร์ จาก Benchmark ในรอบ seed
  - Fraser Marlow จาก Dagster ก็กล่าวตรง ๆ ว่าก่อนระดมทุนเขาให้ความสำคัญกับดาวบน GitHub อย่างมาก
  - งานวิจัยในวารสาร Organization Science ยังแสดงความสัมพันธ์เชิงสถิติระหว่างกิจกรรมบน GitHub กับผลลัพธ์การระดมทุนของสตาร์ตอัป
  - สตาร์ตอัปที่เคลื่อนไหวอย่างคึกคักบน GitHub มีโอกาสระดมทุนได้สูงกว่า 15 จุดเปอร์เซ็นต์
  - ผลลัพธ์คือเกิดวงจรเสริมตัวเองแบบ VC ติดตามดาว → สตาร์ตอัปปั่นดาว → การรับรู้ traction ที่พองเกินจริง → VC มากขึ้นนำไปใช้ → การปั่นมากขึ้น
  - เกณฑ์ตัวเลขที่ Redpoint เปิดเผยต่อสาธารณะยังทำหน้าที่เป็นการให้ค่าเป้าหมายที่แม่นยำแก่สตาร์ตอัปด้วย

อัตราส่วน fork ต่อ star: ฮิวริสติกการตรวจจับแบบง่าย

ในการวิเคราะห์ของผู้เขียนเอง อัตราส่วน fork ต่อ star เป็นตัวชี้วัดแบบง่ายที่ทรงพลังที่สุดในการระบุการปั่นตัวเลขที่อาจเกิดขึ้น
ตรรกะนั้นเรียบง่าย
- การกด star ทำได้โดยไม่เสียต้นทุนและไม่ได้หมายถึงความมุ่งมั่นที่แท้จริง
- fork หมายถึงมีการดาวน์โหลดโค้ดไปใช้งานหรือแก้ไขจริง
มีการนำเสนอค่าเฉลี่ยอัตราส่วน fork ต่อ star แยกตามหมวดหมู่ดังนี้
- 3 รีโพซิทอรีฐานอ้างอิงแบบออร์แกนิกอยู่ที่ 0.160
- 5 รีโพซิทอรีเครื่องมือ AI อยู่ที่ 0.124
- 4 รีโพซิทอรีในคลัสเตอร์บล็อกเชนที่น่าสงสัยว่าถูกปั่น อยู่ที่ 0.053
- 2 รีโพซิทอรีกรณีสุดโต่งอยู่ที่ 0.020
มีการเสนอเกณฑ์ว่า รีโพซิทอรีที่ มี star มากกว่า 10,000 และมีอัตราส่วน fork ต่อ star ต่ำกว่า 0.05 ควรถูกตรวจสอบอย่างใกล้ชิด
อัตราส่วน watcher ต่อ star ถูกเสนอเป็นสัญญาณเสริมที่เข้าใจได้ง่ายกว่า
- โปรเจกต์แบบออร์แกนิกมีค่าเฉลี่ย 0.005 ถึง 0.030
- FreeDomain อยู่ที่ 0.001
อัตราส่วนนี้ไม่ใช่เกณฑ์ตัดสินที่สมบูรณ์แบบ เพราะรีโพซิทอรีเพื่อการศึกษาหรือ curated list อาจมีอัตรา fork ต่ำโดยธรรมชาติ
ถึงอย่างนั้น ก็ยังถูกประเมินว่ามีประโยชน์ในการใช้เป็นตัวกรองด่านแรกเพื่อจับ กรณีที่รุนแรงที่สุด ซึ่งมักหลุดรอดไปหากดูเพียงจำนวน star แบบดิบ

ความนิยมปลอมนอก GitHub

ปรากฏการณ์เดียวกันนี้ขยายไปยังทุกแพลตฟอร์มที่เมตริกความนิยมมีผลต่อความน่าเชื่อถือ
ยอดดาวน์โหลด npm สามารถปั่นให้สูงเกินจริงได้ง่ายมาก
- Andy Richardson ใช้เพียง free tier ของ AWS Lambda ฟังก์ชันเดียว ก็สามารถดันแพ็กเกจ is-introspection-query ให้มียอดดาวน์โหลดเกือบ 1 ล้านครั้งต่อสัปดาห์
- ตัวเลขนี้สูงกว่าแพ็กเกจปกติอย่าง urql, mobx แต่ระบุว่าผู้ใช้จริงมี 0 คน
- งานวิจัยของ CMU พบว่า ในบรรดารีโพซิทอรีที่มีแคมเปญปั่น star มีเพียง 1.23% เท่านั้นที่ไปปรากฏในแพ็กเกจรีจิสทรี แต่ใน 738 แพ็กเกจนั้น 70.46% ไม่มีโปรเจกต์ที่พึ่งพาเลยแม้แต่ตัวเดียว
ส่วนขยาย VS Code Marketplace ก็มีจุดอ่อนแบบเดียวกัน
- นักวิจัยพิสูจน์ได้ว่าสามารถสร้างยอดติดตั้งส่วนขยายปลอมได้ มากกว่า 1,000 ครั้ง ภายใน 48 ชั่วโมง
- AquaSec พบส่วนขยาย 1,283 ตัว ที่มี dependency อันตรายที่รู้จักอยู่แล้ว โดยมียอดติดตั้งรวม 229 ล้านครั้ง
การโปรโมตบน X/Twitter ช่วยขยายการไวรัลบน GitHub แบบปลอม ๆ
- มีกลุ่มปิดที่เรียกว่า engagement pod ซึ่งสมาชิกจะแลกเปลี่ยนการกดไลก์ รีโพสต์ และคอมเมนต์ให้กัน
- Growth Terminal นำสิ่งนี้ไปขายเป็นฟีเจอร์ของผลิตภัณฑ์
- NBC News และนักวิจัยจาก Clemson University ตรวจพบเครือข่าย 686 บัญชี X ที่โพสต์คอนเทนต์ซึ่งสร้างด้วย LLM มากกว่า 130,000 ครั้ง
- บางโพสต์มีร่องรอยของโมเดลที่ใช้ เช่นวลีอย่าง "Dolphin here!"
กรณีของ Higgsfield AI แสดงให้เห็นการ astroturfing ข้ามแพลตฟอร์มในระดับใหญ่ที่มีการบันทึกไว้เป็นเอกสาร
- มี โพสต์สแปมมากกว่า 100 โพสต์ ครอบคลุมกว่า 60 ซับเรดดิต
- ควบคู่กับการส่ง DM แบบเทมเพลตจำนวนมากเพื่อเสนอค่าตอบแทนให้ครีเอเตอร์ช่วยโปรโมต

ความเสี่ยงทางกฎหมายที่แทบไม่ถูกพูดถึง

FTC Consumer Review Rule จะมีผลบังคับใช้ตั้งแต่วันที่ 21 ตุลาคม 2024 และระบุชัดว่าห้ามซื้อขาย "ตัวชี้วัดอิทธิพลบนโซเชียลมีเดียปลอม" ที่อาศัยบอตหรือบัญชีปลอมเพื่อวัตถุประสงค์ทางการค้า
บทลงโทษเมื่อฝ่าฝืนระบุไว้ที่ สูงสุด 53,088 ดอลลาร์ต่อกรณี
FTC ได้ส่งจดหมายเตือนชุดแรกไปยัง 10 บริษัทในปี 2025 และอธิบายว่าการซื้อ GitHub star เพื่อโปรโมตผลิตภัณฑ์เชิงพาณิชย์ก็เข้าข่ายภายใต้กรอบนี้
บรรทัดฐานของ SEC ก็ถูกยกเป็นตัวอย่างที่ตรงประเด็นยิ่งกว่า
- CEO ของ HeadSpin ถูกตั้งข้อหาฉ้อโกงผ่านสื่อสารและฉ้อโกงหลักทรัพย์ จากข้อกล่าวหาว่าปั่นตัวเลขเพื่อระดมเงิน 80 ล้านดอลลาร์จากนักลงทุน
- ผู้ก่อตั้ง ComplYant กำลังเผชิญข้อกล่าวหาหลังอ้างว่ามีรายรับต่อเดือน 250,000 ดอลลาร์ ทั้งที่จริงมีเพียง 250 ดอลลาร์
SEC ส่งสารชัดเจนว่าผู้ระดมทุนสตาร์ทอัพไม่สามารถใช้วัฒนธรรม "fake it until you make it" เพื่อหลอกลวงนักลงทุนได้
มีการเชื่อมโยงว่า หากสตาร์ทอัพปั่น traction ด้วย GitHub star ปลอม ระหว่างการระดมทุน และนักลงทุนนำเมตริกนั้นไปใช้เป็นเหตุผลในการลงเงิน ก็อาจเข้าข่าย กรอบการฉ้อโกงผ่านสื่อสาร ในฐานะการบิดเบือนข้อเท็จจริงสำคัญผ่านการสื่อสารอิเล็กทรอนิกส์
แม้ยังไม่มีคดีที่ถูกฟ้องร้องจาก GitHub star ปลอมเพียงอย่างเดียว แต่เมื่อพิจารณาจากหลักฐานเชิงประจักษ์ขนาดใหญ่ของงานวิจัย CMU และข้อห้ามที่ FTC ระบุไว้อย่างชัดเจน ก็มีการมองว่าอาจเป็นเพียงเรื่องของเวลา

การตอบสนองของ GitHub

Acceptable Use Policies ของ GitHub ระบุห้ามอย่างชัดเจนทั้งการมีปฏิสัมพันธ์ที่ไม่แท้จริง บัญชีปลอมและกิจกรรมอัตโนมัติที่ไม่แท้จริง การปั่นอันดับอย่างการ star หรือ follow อัตโนมัติ ตลอดจนการเข้าร่วมตลาดรองที่ใช้ขยายกิจกรรมไม่แท้จริง
star ที่ถูกจูงใจด้วยรางวัลอย่างคริปโตแอร์ดรอป โทเค็น เครดิต หรือของขวัญ ก็ถือเป็นสิ่งต้องห้ามตามนโยบายเช่นกัน
การบังคับใช้นั้นถูกประเมินว่า เป็นเชิงตอบสนองและไม่สมมาตร
- รีโพซิทอรีที่ StarScout ทำเครื่องหมายไว้ถูกลบ 90.42% แต่บัญชีที่เป็นผู้ให้ star เหล่านั้นถูกลบเพียง 57.07%
- โครงสร้างพื้นฐานของบัญชีจำนวนมากที่สามารถใช้ในแคมเปญครั้งต่อไปจึงยังคงอยู่
ในการสืบสวนของ Dagster ก็พบว่าโปรไฟล์ star ปลอมถูกลบภายใน 48 ชั่วโมง แต่ถูกนำเสนอว่าเป็นการตอบสนองหลังถูกประจานต่อสาธารณะ ไม่ใช่กรณีตรวจจับล่วงหน้า
GitHub ไม่เคยเผยแพร่ บทความใน engineering blog ที่อธิบายวิธีตรวจจับการปั่น star หรือสถิติการบังคับใช้นโยบาย และก็ไม่มีรายงานความโปร่งใสแยกต่างหาก
รองประธานฝ่ายปฏิบัติการความปลอดภัยของ GitHub ตอบกับ Wired เพียงว่าได้ปิดการใช้งานบัญชีตามนโยบาย และปฏิเสธให้รายละเอียดเพิ่มเติม
- อย่างไรก็ตาม มีการระบุว่าคำกล่าวนี้เป็นความเห็นเกี่ยวกับปฏิบัติการมัลแวร์ Stargazers Ghost Network ไม่ใช่การปั่น vanity metric
นักวิจัย CMU แนะนำให้ใช้ เมตริกความนิยมแบบถ่วงน้ำหนัก ที่อิง network centrality แทนจำนวน star แบบดิบ
- ถูกนำเสนอว่าเป็นการเปลี่ยนแปลงที่อาจบั่นทอนเศรษฐกิจ star ปลอมได้ในเชิงโครงสร้าง
GitHub ยังไม่ได้นำข้อเสนอนี้ไปใช้

เมตริกที่ VC ควรดูแทน

Bessemer Venture Partners เรียก star ว่าเป็น vanity metrics และหันไปติดตามกิจกรรมของผู้มีส่วนร่วมแบบไม่ซ้ำรายเดือนแทน
- รวมทั้งผู้ที่สร้าง issue แสดงความคิดเห็น ทำ PR และ commit
- ในบรรดา 10,000 โปรเจกต์ชั้นนำ มีไม่ถึง 5% ที่มีผู้มีส่วนร่วมรายเดือนเกิน 250 คน
- และมีเพียง 2% เท่านั้นที่รักษาระดับนี้ได้ต่อเนื่อง 6 เดือน
Jono Bacon แห่ง StateShift แนะนำ 5 เมตริกที่สัมพันธ์กับการยอมรับใช้งานจริง
- ยอดดาวน์โหลดแพ็กเกจ
- คุณภาพของ issue ที่สะท้อน production edge case จากผู้ใช้จริง
- การรักษาผู้มีส่วนร่วม วัดจากเวลาที่ใช้จนถึง PR ครั้งที่สอง
- ความลึกของการสนทนาในชุมชน
- usage telemetry
อัตราส่วน fork ต่อ star ที่ปรากฏในการวิเคราะห์ของผู้เขียนเองถูกเสนอเป็นตัวกรองด่านแรกที่ง่ายที่สุด
- โปรเจกต์ที่แข็งแรงมักมีประมาณ 100 ถึง 200 fork ต่อทุก 1,000 star
- หากจำนวน star โดยรวมสูง แต่มี fork น้อยกว่า 50 ต่อทุก 1,000 star ก็ควรตรวจสอบเพิ่มเติม
มีการยกคำพูดว่า "จำนวน star อาจหลอกกันได้ แต่บั๊กฟิกซ์ที่ช่วยชีวิตสุดสัปดาห์ของใครสักคน หลอกกันไม่ได้"

ปัญหาเชิงโครงสร้าง

มีการเสนอพลวัต 3 ประการเพื่ออธิบายว่าเหตุใดเศรษฐกิจดาวปลอมจึงยิ่งทวีความรุนแรงได้ด้วยตัวเอง
วงจรแรงจูงใจ
- VC ใช้จำนวนดาวเป็นสัญญาณสำหรับการคัดหาโอกาสลงทุน
- สตาร์ทอัพปั่นจำนวนดาว
- VC ตรวจพบ traction ที่ถูกทำให้ดูสูงเกินจริง
- VC จำนวนมากขึ้นนำการติดตามจำนวนดาวมาใช้
- เกิดโครงสร้างวนซ้ำที่ทำให้สตาร์ทอัพจำนวนมากขึ้นกระโดดเข้ามาปั่นตาม
- เกณฑ์มาตรฐานที่ Redpoint เปิดเผยต่อสาธารณะ รอบ Seed 2,850 รายการ และ Series A 4,980 รายการ ทำหน้าที่เสมือนเป็นตารางจำนวนที่ต้องซื้อโดยพฤตินัย
ความเปราะบางของภาค AI
- ภาวะร้อนแรงเกินควร โครงสร้างเงินทุนแบบใกล้เคียงคริปโตที่ให้รางวัลกับราคาโทเคนมากกว่าคุณภาพผลิตภัณฑ์ และระบบนิเวศนักรีวิวบน X/Twitter ที่ปะปนด้วยตัวตนปลอมที่ถูกจัดฉาก รวมกันสร้างสภาพแวดล้อมที่เอื้อต่อ ความน่าเชื่อถือที่ถูกผลิตขึ้น
- ในการวิเคราะห์ของผู้เขียนเอง ก็พบว่าหลายรีโพซิทอรีที่มีสัญญาณการปั่นแย่ที่สุดเป็นโปรเจ็กต์ AI ที่อยู่ใกล้เคียงกับบล็อกเชนและคริปโต
ความไม่สมมาตรของการบังคับใช้บน GitHub
- การลบรีโพซิทอรีออก แต่ยังปล่อยให้บัญชีปลอม 57% คงอยู่ต่อไป เท่ากับรักษา แรงงาน ของเศรษฐกิจดาวปลอมเอาไว้
- แรงยับยั้งต่อการกระทำผิดซ้ำยังอ่อนแอ
- มีการสรุปว่า หาก GitHub ไม่ปรับเปลี่ยนเชิงโครงสร้าง เช่น ตัวชี้วัดความนิยมแบบถ่วงน้ำหนัก คะแนนความน่าเชื่อถือระดับบัญชี และรายงานการบังคับใช้ที่โปร่งใส ช่องว่างระหว่างจำนวนดาวกับการยอมรับใช้งานจริงของนักพัฒนาจะยิ่งกว้างขึ้นต่อไป
- เศรษฐกิจดาวปลอมถูกสรุปว่าเป็นโครงสร้างที่ ปัญหาราคา 50 ดอลลาร์ ก่อให้เกิด ผลลัพธ์มูลค่า 50 ล้านดอลลาร์
- ปิดท้ายด้วยประโยคว่า จนกว่าแพลตฟอร์ม นักลงทุน และหน่วยงานกำกับดูแลจะไล่ตามให้ทัน ตลาดก็จะยังคงจ่ายเงิน 50 ดอลลาร์นั้นต่อไป

7 ความคิดเห็น

pdpatgtpmdt2843 9 일 전

พวกมิจฉาชีพอย่าง oh-my-claudecode กับ claw-code 555

savvykang 9 일 전

SKT เป็นบริษัทที่ล้ำหน้ามากเลยสินะ

guarder 8 일 전

ผมก็นึกถึงเหตุการณ์นี้เหมือนกัน นี่ก็ผ่านมา 7 ปีแล้วสินะ

ndrgrd 10 일 전

โดยส่วนตัวแล้วผมมองว่า stars ควรใช้ดูเป็นค่าอย่างน้อยขั้นต่ำ ไม่ได้ใช้เป็นเกณฑ์ตัดสินในตัวมันเอง
โปรเจกต์ที่มี stars ไม่ถึง 100 อาจต้องพิจารณาอย่างระแวดระวังมากขึ้น แต่ก็ไม่ได้หมายความว่าถ้ามี stars เกิน 50,000 แล้วจะเชื่อถือได้โดยอัตโนมัติ

shakespeares 9 일 전

เป็นท่าทีที่ถูกต้องแล้ว

edunga1 9 일 전

แนวทางที่เข้าถึงโดยอิงจาก stargazer นี่ดีเลยครับ
ช่วงนี้มีหลายรีโพซิทอรีที่แม้จะมี 10,000 หรือ 100,000 ดาวก็ยังไม่น่าไว้วางใจ เลยอยากให้ GitHub รับมือได้อย่างรวดเร็วครับ

GN⁺ 10 일 전

ความคิดเห็นบน Hacker News

ผมไม่เข้าใจจริง ๆ ว่าทำไม VC ถึงเอาคะแนนอินเทอร์เน็ตในจินตนาการอย่าง GitHub stars ไปใช้ตัดสินใจลงทุนจริง ๆ มันเหมือนทีม NFL เลือกควอเตอร์แบ็กจากจำนวนผู้ติดตาม Instagram แทนเปอร์เซ็นต์การจ่ายบอลสำเร็จ ดู สถิติของ Cleveland Browns แล้วก็รู้สึกว่ามันเป็นได้แค่มุกตลก ไม่ใช่กลยุทธ์เอาแชมป์แบบจริงจัง เลยอดสงสัยไม่ได้ว่านี่เป็นความขี้เกียจของ VC หรือเป็นผลข้างเคียงจากสภาพแวดล้อมแบบ ZIRP ที่มีเงินล้นระบบกันแน่ ถ้าใครบอกว่าจะเอาเงินผมไปบริหารตามจำนวน stars ผมคงขำก่อนแล้วค่อยหน้าตึงทันที
ตอนเลือกไลบรารี ผมแทบไม่เคยดู stars เลย และก็ไม่ค่อยเข้าใจว่าทำไมต้องดู สิ่งที่ผมดูคือคอมมิตล่าสุดเมื่อไร โปรเจ็กต์เก่าแค่ไหน จัดการ issue กันยังไง และคุณภาพโค้ดบางส่วน สุดท้ายแล้ว stars ก็เป็นแค่ผลทางอ้อมของตัวชี้วัดที่มีสาระพวกนั้น หรือไม่ก็เป็นการหลอกลวง ดังนั้นถ้าไม่เข้าไปดูเองก็มองว่าไม่มีความหมาย ผมมอง stars มาตลอดว่าเป็นแค่ “บุ๊กมาร์กไว้กลับมาดูทีหลัง” แล้วก็แปลกใจมากที่มันถูกยกให้เป็นตัวชี้วัดคุณภาพ อยากให้ FTC จัดการแนวปฏิบัติแบบนี้ให้หนักหน่อย การไล่ดูประวัติ commit แบบคร่าว ๆ ก็มีประโยชน์มาก เพราะพอมองออกว่าการเปลี่ยนแปลงเป็นแบบไหนและมี cadence แค่ไหน
- ในแง่ที่ว่าคนเราสุดท้ายก็ถูกดึงดูดด้วย ของแวววาวฉูดฉาด ผมว่ามันเข้ากับอุปมาแบบ คำพูดของ Napoleon ที่ว่าความรุ่งโรจน์ เหรียญตรา และรางวัลคือสิ่งที่ขับเคลื่อนผู้คนได้พอดี
- ต่อให้ผมไม่ดู stars เอง ถ้าคนทำ dependency ที่ผมใช้ถูกตัวเลขนั้นชี้นำอยู่ ผมก็ยังมองว่านั่นเป็นปัญหา
พอเห็นบทความแบบนี้ มันให้ความรู้สึกเหมือนแค่ปรับจุดเฉพาะบางอย่างก็น่าจะแก้ได้ แต่ในมุมผม ระบบทั้งระบบมันพังกว่านั้นมาก แก่นจริง ๆ คือ สัญญาณเองกลายเป็นสินค้าไปแล้ว ถ้าคุณทำ SaaS ก็จะมีนักข่าวมาทาบว่าจะจ่ายเงินเพื่อให้ติดลิสต์ “Top app แห่งปี” ไหม มีคนเสนอเพิ่มยอดผู้ติดตามโซเชียล มี recruiter ที่บอกว่าจะหาผู้เชี่ยวชาญเฉพาะทางให้ แต่สุดท้ายก็แค่ scrape LinkedIn กับส่งสแปม เรื่องจ้างงานเองผมก็เคยเจอผู้สมัครที่นั่งอยู่ใน interview farm ที่เอเชียตะวันออก ต่อเข้า IP จาก Washington D.C. ใช้ชื่อสไตล์ยุโรป เปิดฉากหลังปลอม แล้วทำเป็นรู้ทุกเทคโนโลยีที่เขียนไว้ในประกาศงาน พอมีตัวชี้วัดสำคัญขึ้นมา ระบบนิเวศการปั่นตัวเลขก็จะเกิดตามมาอย่างรวดเร็ว และสุดท้ายการปั่นก็กลายเป็นส่วนหนึ่งของการทำธุรกิจไปเลย
- สุดท้ายทุกอย่างก็ไหลไปรวมที่ การหาเงินเพิ่ม อยู่ดี
- ท้ายที่สุดมันคือเรื่องที่บริษัทจะเลือกซื้อ ตัวชี้วัดลวง ๆ หรือไม่ เราเองก็เพิ่งพยายามทำให้กิจกรรมของบอต AI ใน repository ของเรายากขึ้น และหวังว่าบอตจะไหลไปหาสตาร์ทอัพที่เป็นเป้าหมายง่ายกว่าแบบใน บทความนี้
ผมดูแลเว็บไซต์เล็ก ๆ แห่งหนึ่ง โดยผมเอามาตรฐานไม่เป็นทางการเดิมมานิยามให้ชัดขึ้น แล้วก็ลงรายชื่อซอฟต์แวร์กับไลบรารีที่ทำตามมาตรฐานนั้นไว้บนหน้าโฮม ตอนแรกแทบจะรับหมด แต่พอรายชื่อยาวขึ้นก็เริ่มรู้สึกว่าต้องมี เกณฑ์ความโดดเด่น บ้าง ตอนปฏิเสธไลบรารีที่เพิ่งมีอายุไม่กี่วัน แทบจะแน่ใจว่า AI สร้าง และคุณภาพก็ไม่ดี ผมก็พูดถึงด้วยว่า “มี stars เป็น 0” ซึ่งเป็นหนึ่งในจุดที่น่ากังวล ผู้เขียนกลับย้อนถามแบบก้าวร้าวว่าต้องมีกี่ดวงถึงจะพอ ผมไม่ได้ตอบ เพราะ stars เป็นแค่ปัจจัยหนึ่ง ไม่ใช่ทั้งหมด สิ่งที่ต้องมีคือผู้ใช้จริงและ การเป็นที่รู้จัก จริง ๆ หลังจากนั้นนักพัฒนาคนอื่นก็ยังเข้ามาผสมโรง บอกให้ตั้ง star cutoff ไปเลยแทนการใช้เกณฑ์กำกวม แต่ผมตั้งใจไม่ทำ เพราะทันทีที่ตัวเลขกลายเป็นเป้าหมาย มันก็พังในฐานะตัวชี้วัดทันที ผมก็ไม่ได้อยากขยายหน้านั้นไปเรื่อย ๆ แบบไม่สิ้นสุด และถ้าใส่ทุกอย่างที่มี stars เกิน X แม้แต่มัลแวร์ก็อาจโผล่ขึ้นมาได้ ที่สำคัญที่สุดคือจะให้ใครขึ้นหน้าเว็บผมมันก็เป็นเรื่องที่ผมตัดสินใจเอง อยากให้คุยกันแบบไม่เสียมารยาทหน่อย
- นี่เป็นตัวอย่างของ Goodhart's law แบบตรงตัวเลย
พอเห็นโครงสร้างที่ VC ปฏิบัติต่อ ความนิยมบน GitHub ราวกับเป็นหลักฐานของ traction ก็ยิ่งรู้สึกว่าเงินก้อนใหญ่กำลังทำลายทุกอย่างอีกแล้ว และตรงนี้ Goodhart's law ก็ใช้ได้แบบเป๊ะ ๆ เวลาผมจะประเมินคุณภาพ repository แบบเร็ว ๆ ผมดูสถานะการดูแลรักษา อายุโปรเจ็กต์ ความสง่างามของ API และประวัติ commit อย่างที่บทความพูดไว้ ตัวชี้วัดอย่างกิจกรรมของผู้มีส่วนร่วมรายเดือนที่ไม่ซ้ำกัน จำนวนดาวน์โหลดแพ็กเกจ คุณภาพของ issue ที่ดูเป็นผู้ใช้จริง retention ไปถึง PR ที่สอง ความลึกของการคุยในชุมชน หรือ telemetry การใช้งาน ดูจะใกล้กับ การใช้งานจริง มากกว่า
- สุดท้ายแล้วผมก็ อ่านโค้ดไปเลย รู้สึกว่าตรงที่สุดแล้ว
ดูเหมือนหลายคนคาดหวังให้ stars เป็นตัวชี้วัดแทนแบบถูกและเร็วของ “ซอฟต์แวร์ที่น่าเชื่อถือ คุณภาพดี และมีคนดูเยอะ” แต่ผมคิดว่ามันล้มเหลวโดยสิ้นเชิงในฐานะ proxy ต่อให้ตัดเรื่อง astroturfing ออกไป stars ก็ไม่ได้รับประกันทั้งความนิยมและคุณภาพ ไลบรารีระบบพื้นฐานบางตัวก็น่าจะมี stars น้อยด้วยซ้ำ ในเมื่ออ่านโค้ดเองได้ การพึ่ง stars ก็เลยดูไร้สาระ ผมจึงติดนิสัยข้าม stars ไป แล้วไล่ดู repository เพื่อประเมินสถาปัตยกรรมกับ implementation ด้วยตัวเอง และหลายครั้งก็พบว่าทางเลือกที่มี stars น้อยกว่ากลับดีกว่า
- ถ้ามีทางเลือก 3 ตัวและแต่ละตัวมี 100k LOC คำว่า ไปอ่านโค้ดสิ ก็อาจไม่ง่ายในทางปฏิบัติ สุดท้ายเราก็ยังต้องมีตัวชี้วัดแทน stars ไม่น่าเชื่อถือก็จริง แต่คำแนะนำหรือ referral น่าจะดีกว่า เพียงแต่ถ้าเป็นโดเมนที่เครือข่ายผมไม่มีความรู้เลย ความจริงก็คือผมก็ยังต้องใช้ proxy อ่อน ๆ อย่าง stars อยู่บ้าง
- เมื่อก่อนหน้า issue นั้นดีมากสำหรับดู ร่องรอยการใช้งานจริง เพราะจะเห็นว่าคนเจอปัญหาอะไรบ้าง ตอนนี้ก็ยังใช้ได้บ้างเป็นบางครั้ง แต่ไม่เหมือนเมื่อก่อนแล้วเพราะมีขยะจาก agent เยอะขึ้น
ผมสงสัยว่า GitHub น่าจะใช้ คะแนนแบบกราฟคล้าย PageRank แทน raw stars ได้ไหม เช่น ถ้าผู้ใช้ที่ดูแล repository สำคัญมากด star หรือ fork ให้ repository ไหน repository นั้นก็ได้คะแนนสูงขึ้น วิธีนี้คำนวณแพงกว่าก็จริง แต่ถ้าผมไม่ได้พลาดอะไรไป ก็น่าจะให้ผลที่น่าเชื่อถือกว่าตอนนี้มาก
- แนวทางนั้นดูเหมือนจะเข้าใกล้ผลลัพธ์ที่ดีกว่า แต่ถ้าโครงสร้างยังเอาผู้ใช้ทุกคนเข้ามารวมในเมทริกซ์อยู่ ผมก็ยังคิดว่ามัน โดนเกมได้ อยู่ดี ผมว่าถ้าใช้ชุดที่จำกัดกว่าอย่าง trusted peers หรือเพื่อนของเพื่อน หรือใช้สัญญาณภายหลังแทนการกดชอบแบบตรง ๆ ก็น่าจะดีกว่า
สิ่งที่ผมสงสัยจริง ๆ คือทำไม VC ถึงมองว่า ระบบ star เป็นอะไรที่น่าเชื่อถือ ผู้ใช้ที่กด stars มักลืมโปรเจ็กต์นั้นไปในเวลาไม่นาน เพราะงั้นโปรเจ็กต์เก่าที่ไม่ได้รับการดูแลก็ยังอาจมี stars เยอะอยู่ดี ถึงจะไม่ดีที่สุด แต่ก็ดีกว่าถ้าจะไปดูว่า issue ยังมีชีวิตไหม มีการเปิด-ปิดแค่ไหน ปิดอัตโนมัติหรือเปล่า ตอบช้าเร็วอย่างไร โปรเจ็กต์ของผมมี 200 stars แต่แค่จะอัปเดตแบบมีความหมายอย่างต่อเนื่อง ไม่ใช่แค่ดันเวอร์ชันขึ้น ก็เหนื่อยมากแล้ว
- stars เป็นตัวอย่างคลาสสิกของ ตัวชี้วัดที่พอกลายเป็นเป้าหมายแล้วก็ไม่ใช่ตัวชี้วัดที่ดีอีกต่อไป และในยุค LLM นี้ ตัวชี้วัดอื่นอย่างกิจกรรมใน issue เองก็รู้สึกว่าปั่นได้ง่ายเหมือนกัน แค่เปิด ปิด ตอบ ไปเรื่อย ๆ
- เรื่องที่ว่า VC ต้องการ stars เป็นหลักพันอาจเป็นภาพรวมที่ใหญ่เกินจริง ในทางปฏิบัติน่าจะเจอคนที่จ่าย 20 ดอลลาร์เพื่อทำให้โปรเจ็กต์ตัวเองดูดีขึ้น เอาไปใส่เรซูเม่หรือสนอง vanity เรียกคลิกจาก Reddit เพิ่ม หรือทำให้เด่นกว่าโอเพนซอร์สตัวอื่น มากกว่า ถ้าใครลงทุนโดยดูแค่ stars 8,000 หรือ 10,000 แล้วไม่ดูโปรเจ็กต์หรือศักยภาพรายได้เลย ผมก็จะคิดว่าเป็น นักลงทุนที่ไม่รู้เรื่องจริง ๆ หรือไม่ก็ระดับเลือกโปรเจ็กต์นักศึกษาสักชิ้นทุกหน้าร้อน บัญชีปลอมยังมากด stars ให้ repository เก่า ๆ ของผมเพื่อให้ตัวเองดูเหมือนผู้ใช้จริง กดดาวให้เดือนละ 5,000 โปรเจ็กต์โดยแทบไม่ทำอย่างอื่นเลย แบบนี้เห็นพิรุธชัดมาก เมื่อก่อนผมยังเคยเห็นวงแหวน GitHub Sponsor ด้วย ซึ่งกลิ่นคล้ายฟอกเงินหรือใช้บัตรขโมยมาอย่างแรง
- สิ่งที่ผมหาคือสัญญาณของ คุณภาพซอฟต์แวร์ระยะยาว แต่สิ่งที่ VC มองหาคือสัญญาณ momentum พุ่งขึ้นระยะสั้น ซึ่งสองอย่างนี้มักขัดกัน
- ตรงนี้คะแนนแบบกราฟคล้าย pagerank ก็น่าจะช่วยได้บ้าง ถ้าให้คะแนน repository ที่มี issue จากผู้ใช้ที่มีชื่อเสียงดีมาก ๆ มากกว่า ก็อาจทนการปั่นแบบง่าย ๆ ได้ขึ้นอีกนิด
- ถ้าช่วง 3 ปีที่ผ่านมาไม่ได้เปลี่ยนไปมากนัก ผมรู้สึกว่าบทความนี้อาจพูดเกินไปหน่อยว่า VC เชื่อ stars มากแค่ไหน ตอนที่ผมคุยกับ VC เมื่อ 10 ปีก่อน ส่วนใหญ่ก็มองว่า stars เป็น vanity metric แล้วเลิกให้ความสำคัญกันไปแล้ว
ผมคิดว่า GitHub จัดการปัญหานี้ได้ ง่ายมาก แค่ใช้เงิน 10 ดอลลาร์กับผู้ขาย stars แต่ละเจ้า ซื้อดูเอง แล้วระงับบัญชีทั้งหมดที่เกี่ยวข้อง เท่านี้ก็น่าจะเพิ่มแรงเสียดทานให้ทั้งระบบนิเวศนี้ได้มากด้วยเงินไม่กี่บาท
ถ้าจะดูข้อมูลเพิ่มเติม บทความปี 2023 ของ Dagster ชื่อ "Tracking the Fake GitHub Star Black Market with Dagster, dbt and BigQuery" และ บทความบน arXiv ชื่อ "Six Million (Suspected) Fake Stars in GitHub: A Growing Spiral of Popularity Contests, Spams, and Malware" ก็น่าอ้างอิง

เบื้องหลังเศรษฐกิจดาวปลอมบน GitHub

ดาวปลอม 6 ล้านดวง

มาร์เก็ตเพลส

การวิเคราะห์ภายใน: ลักษณะของ stargazer ปลอม

ฐานอ้างอิงแบบออร์แกนิก

รีโพซิทอรีบล็อกเชนที่ถูกปั่น

FreeDomain

Union Labs

หมวด AI

เส้นทางที่ดาวกลายเป็นเงินทุน

Pangolin: มีดาว 1000 ดวงในเดือนมกราคม 2025, ผ่าน Y Combinator และภายในเดือนสิงหาคม 2025 ระดมทุน seed ได้ 4.7 ล้านดอลลาร์**

Browser-use: มีดาว 50,000 ดวงในเวลา 3 เดือน, เข้า Y Combinator W25, และระดมทุน seed ได้ 17 ล้านดอลลาร์

อัตราส่วน fork ต่อ star: ฮิวริสติกการตรวจจับแบบง่าย

ความนิยมปลอมนอก GitHub

ความเสี่ยงทางกฎหมายที่แทบไม่ถูกพูดถึง

การตอบสนองของ GitHub

เมตริกที่ VC ควรดูแทน

ปัญหาเชิงโครงสร้าง

วงจรแรงจูงใจ

ความเปราะบางของภาค AI

ความไม่สมมาตรของการบังคับใช้บน GitHub

7 ความคิดเห็น

ความคิดเห็นบน Hacker News

เบื้องหลังเศรษฐกิจดาวปลอมบน GitHub

ดาวปลอม 6 ล้านดวง

มาร์เก็ตเพลส

การวิเคราะห์ภายใน: ลักษณะของ stargazer ปลอม

ฐานอ้างอิงแบบออร์แกนิก

รีโพซิทอรีบล็อกเชนที่ถูกปั่น

FreeDomain

Union Labs

หมวด AI

เส้นทางที่ดาวกลายเป็นเงินทุน

Pangolin**: มีดาว 1000 ดวงในเดือนมกราคม 2025, ผ่าน Y Combinator และภายในเดือนสิงหาคม 2025 ระดมทุน seed ได้ 4.7 ล้านดอลลาร์

Browser-use**: มีดาว 50,000 ดวงในเวลา 3 เดือน, เข้า Y Combinator W25,** และระดมทุน seed ได้ 17 ล้านดอลลาร์

อัตราส่วน fork ต่อ star: ฮิวริสติกการตรวจจับแบบง่าย

ความนิยมปลอมนอก GitHub

ความเสี่ยงทางกฎหมายที่แทบไม่ถูกพูดถึง

การตอบสนองของ GitHub

เมตริกที่ VC ควรดูแทน

ปัญหาเชิงโครงสร้าง

วงจรแรงจูงใจ

ความเปราะบางของภาค AI

ความไม่สมมาตรของการบังคับใช้บน GitHub

บทความที่เกี่ยวข้อง

7 ความคิดเห็น

ความคิดเห็นบน Hacker News

Pangolin: มีดาว 1000 ดวงในเดือนมกราคม 2025, ผ่าน Y Combinator และภายในเดือนสิงหาคม 2025 ระดมทุน seed ได้ 4.7 ล้านดอลลาร์**

Browser-use: มีดาว 50,000 ดวงในเวลา 3 เดือน, เข้า Y Combinator W25, และระดมทุน seed ได้ 17 ล้านดอลลาร์