เบื้องหลังเศรษฐกิจดาวปลอมบน GitHub
(awesomeagents.ai)- ระบบนิเวศการซื้อขาย Starบน GitHub ก่อตัวขึ้นครอบคลุมทั้งเว็บไซต์เฉพาะทาง แพลตฟอร์มฟรีแลนซ์ เครือข่ายแลกเปลี่ยน และช่องทางปิด โดยจากการวิเคราะห์ช่วงปี 2019 ถึง 2024 พบ ดาวปลอมที่น่าสงสัยราว 6 ล้านดวง กระจายอยู่ในรีโพซิทอรี 18,617 แห่งและบัญชีราว 301,000 บัญชี
- ในปี 2024 แคมเปญดาวปลอมเพิ่มขึ้นอย่างรวดเร็ว และพบว่า 16.66% ของรีโพซิทอรีที่มีดาวตั้งแต่ 50 ดวงขึ้นไป มีความเกี่ยวข้อง โดยดาวที่ซื้อยังถูกใช้จริงเพื่อให้ขึ้น GitHub Trending และหลบเลี่ยงอัลกอริทึมการค้นพบของแพลตฟอร์ม
- การขายดาวปลอมมีราคาตั้งแต่ 0.03 ดอลลาร์ถึง 0.90 ดอลลาร์ต่อดาว โดยซื้อขายตามคุณภาพบัญชีและวิธีส่งมอบ และยังขยายไปเป็นโครงสร้างพื้นฐานที่รวมถึงเครื่องมือปั่นกราฟการมีส่วนร่วม การขายโปรไฟล์ที่สร้างไว้ล่วงหน้า การรับประกันทดแทน และ API สำหรับสั่งซื้อ
- จำนวนดาวบน GitHub เชื่อมโยงโดยตรงกับ ตัวชี้วัดการระดมทุน และถูกใช้เป็นเกณฑ์ในช่วง seed และ Series A ทำให้การซื้อดาวด้วยต้นทุนต่ำก่อให้เกิดวงจรเสริมแรงตัวเองที่นำไปสู่การรับรู้ traction ที่สูงเกินจริงและการระดมทุน
- อัตราส่วนดาวต่อฟอร์กและอัตราส่วนดาวต่อ watcher ถูกเสนอเป็น ตัวกรองเบื้องต้นสำหรับตรวจจับการปั่น และแม้นโยบายของ GitHub จะห้ามไว้รวมถึงมีการบังคับใช้กฎของ FTC แล้ว การจัดการบัญชียังเกิดขึ้นน้อยกว่าการลบรีโพซิทอรี จึงยังไม่มีการตอบสนองเชิงโครงสร้างอย่างแท้จริง
ดาวปลอม 6 ล้านดวง
- การวิเคราะห์ StarScout โดยนักวิจัยจาก Carnegie Mellon University, North Carolina State University และ Socket ตรวจสอบเมทาดาทา GitHub ขนาด 20TB, อีเวนต์ 6.7 พันล้านรายการ และดาว 326 ล้านดวงตั้งแต่ปี 2019 ถึง 2024 และระบุได้ว่ามี ดาวปลอมที่น่าสงสัยราว 6 ล้านดวง กระจายอยู่ในรีโพซิทอรี 18,617 แห่งและบัญชีราว 301,000 บัญชี
- ในปี 2024 แคมเปญดาวปลอมเพิ่มขึ้นอย่างรวดเร็ว โดย ณ เดือนกรกฎาคมพบว่า 16.66% ของรีโพซิทอรีที่มีดาวตั้งแต่ 50 ดวงขึ้นไป มีความเกี่ยวข้อง
- ก่อนปี 2022 แทบอยู่ในระดับใกล้ 0
- ในการตรวจสอบความแม่นยำของการตรวจจับ ยังพบด้วยว่ารีโพซิทอรี 90.42% และบัญชี 57.07% ที่ StarScout ระบุไว้ ถูกลบไปแล้ว ณ เดือนมกราคม 2025
- เป็นตัวเลขที่สนับสนุนว่า GitHub เองก็มองว่านี่เป็นกิจกรรมที่ผิดปกติ
- ในบรรดารีโพซิทอรีที่ได้รับประโยชน์จากดาวปลอม รีโพซิทอรีที่เกี่ยวข้องกับ AI และ LLM มีขนาดใหญ่ที่สุดในหมวดที่ไม่เป็นอันตราย โดยนับตามจำนวนจริงพบดาวปลอม 177,000 ดวง
- มีการอ้างว่าในนั้นรวมรีโพซิทอรีงานวิจัยและผลิตภัณฑ์ของสตาร์ทอัพด้าน LLM อยู่จำนวนมาก
- รีโพซิทอรี 78 แห่งที่ตรวจพบแคมเปญดาวปลอม ได้ขึ้น GitHub Trending ซึ่งแสดงให้เห็นว่าดาวที่ซื้อมาถูกใช้จริงเพื่อหลบเลี่ยงอัลกอริทึมการค้นพบของแพลตฟอร์ม
- ในการสืบสวนของ Dagster เมื่อเดือนมีนาคม 2023 วิศวกรได้ซื้อดาวจากผู้ขาย 2 รายโดยตรงเพื่อยืนยันปรากฏการณ์นี้
- GitHub24 ซึ่งเป็นบริษัทจดทะเบียนในเยอรมนี คิดราคา EUR 0.85 ต่อดาว และดาว 100 ดวงยังคงอยู่ครบหลังผ่านไป 1 เดือน
- Baddhi Shop ขายดาว 1,000 ดวงในราคา 64 ดอลลาร์ แต่ระบุว่าอัตราคงอยู่มีเพียงราว 75%
มาร์เก็ตเพลส
- ระบบนิเวศการขายดาวบน GitHub ก่อตัวขึ้นครอบคลุมทั้งเว็บไซต์เฉพาะทาง แพลตฟอร์มฟรีแลนซ์ เครือข่ายแลกเปลี่ยน และช่องทางปิด โดยมี เว็บไซต์ที่ยังเคลื่อนไหวอย่างน้อย 12 แห่ง ที่ขายดาว GitHub โดยตรง
- มีการยกตัวอย่าง SocialPlug.io, Buy.fans, Boost-Like.store, GitHubPromoter.com, Followdeh.com, Vurike.com เป็นต้น
- ช่วงราคาถูกแบ่งตามคุณภาพบัญชีและวิธีส่งมอบ
- แบบราคาถูกอยู่ที่ 0.03 ถึง 0.10 ดอลลาร์ต่อดาว ส่งภายในไม่กี่วัน ใช้บัญชีใหม่หรือโปรไฟล์ว่าง
- แบบกลางอยู่ที่ 0.20 ถึง 0.50 ดอลลาร์ ส่งภายใน 1 ถึง 2 สัปดาห์ และมีประวัติกิจกรรมบางส่วน
- แบบพรีเมียมอยู่ที่ 0.80 ถึง 0.90 ดอลลาร์ ชูจุดขายว่าค่อย ๆ ส่งมอบอย่างเป็นธรรมชาติ และใช้บัญชีเก่าหลายปีที่มีรีโพซิทอรีและประวัติการมีส่วนร่วม
- บน Fiverr ก็มี กิกที่ยังเคลื่อนไหวอยู่ 24 รายการ ที่ขายบริการโปรโมต GitHub โดยดาวและฟอร์กแบบพื้นฐานเริ่มที่ 5 ดอลลาร์ ส่วน "organic promotion" ตั้งราคาไว้ที่ 25 ดอลลาร์ขึ้นไป
- ใช้ถ้อยคำอ้อมหรือคำที่หลบเลี่ยงเพื่อเลี่ยงตัวกรองของแพลตฟอร์ม
- ยังมี แพลตฟอร์มแลกดาว อย่าง GithubStarMate.com และ SafeStarExchange.com เปิดให้บริการ โดยใช้รูปแบบดาวตอบแทนกันบนฐานเครดิต
- โครงสร้างพื้นฐานไม่ได้หยุดแค่การขายดาว แต่ขยายไปถึงการปั่นกราฟการมีส่วนร่วมบน GitHub
- มีเครื่องมือโอเพนซอร์สอย่างน้อย 7 ตัว เช่น fake-git-history, commit-bot, Commiter ที่มีอยู่เพื่อใช้ปลอมประวัติการมีส่วนร่วมบน GitHub
- โปรไฟล์ GitHub ที่ทำไว้ล่วงหน้าพร้อมประวัติคอมมิต 5 ปีและตรา Arctic Code Vault Contributor ถูกขายบน Telegram ในราคาราว 5,000 ดอลลาร์
- ผู้ขายบางรายถึงขั้นมี การรับประกันทดแทน
- Followdeh โฆษณาการรับประกัน 30 วัน
- บริการพรีเมียมสัญญาดาวแบบ "non-drop" ที่จะไม่ถูกตรวจจับโดย GitHub
- SocialPlug อ้างว่าส่งมอบดาว 3.1 ล้านดวงให้ลูกค้ามากกว่า 53,000 ราย และยังมี API สำหรับสั่งซื้อ
- งานวิจัย ACSAC 2020 ของ Tsinghua University ได้บันทึกโครงสร้างเชิงพาณิชย์ของกลุ่มโปรโมตบน QQ และ WeChat ในจีนไว้
- มีสมาชิกมากกว่า 1,020 คน และรับงานรีโพซิทอรีราว 20 แห่งต่อวัน
- ประเมินว่ากำไรของผู้โปรโมตอยู่ที่ 3.4 ล้านถึง 4.4 ล้านดอลลาร์ต่อปี
การวิเคราะห์ภายใน: ลักษณะของ stargazer ปลอม
- มีการสร้างเครื่องมือวิเคราะห์บนพื้นฐาน GitHub API เพื่อตรวจสอบ 20 รีโพซิทอรี โดยเปรียบเทียบทั้งรีโพซิทอรีที่ StarScout ติดป้ายไว้ รีโพซิทอรี AI ที่เติบโตสูงในดัชนี Runa Capital ROSS Index และรีโพซิทอรีฐานอ้างอิงแบบออร์แกนิก
- ในแต่ละรีโพซิทอรีมีการ สุ่มตัวอย่างโปรไฟล์ stargazer อย่างละ 150 บัญชี เพื่อวัดอายุบัญชี จำนวนรีโพซิทอรีสาธารณะ จำนวนผู้ติดตาม และการมีอยู่ของคำแนะนำตัว
- ร่องรอยการปั่นถูกพบซ้ำ ๆ ในตัวชี้วัดร่วมไม่กี่อย่าง
- แม้บัญชีจะไม่ได้ใหม่มาก แต่อัตราส่วนของบัญชีว่างกลับสูง
- อัตราส่วนดาวต่อฟอร์กและดาวต่อ watcher ต่ำกว่าระดับของรีโพซิทอรีออร์แกนิกอย่างชัดเจน
-
ฐานอ้างอิงแบบออร์แกนิก
- ค่าอายุบัญชีกลางของ Flask, LangChain และ AutoGPT อยู่ที่ 4801 วัน, 2967 วัน, 4022 วัน ตามลำดับ ซึ่งสะท้อนว่า stargazer จำนวนมากเป็นกลุ่มนักพัฒนาที่ใช้ GitHub มานาน
- สัดส่วนบัญชีที่ไม่มีรีโพซิทอรีสาธารณะเลยอยู่ที่ 5.3%, 5.9%, 2.0% และสัดส่วน ผู้ติดตาม 0 คน ก็อยู่ในระดับต่ำที่ 10.0%, 11.8%, 5.9%
- สัดส่วน บัญชีผี ของ Flask อยู่ที่ 1.3% และสัดส่วน suspicious accounts ของ Flask·LangChain·AutoGPT ถูกระบุว่าอยู่ที่ 0.0%
- อัตราส่วนดาวต่อฟอร์กอยู่ที่ Flask 0.235, LangChain 0.155, AutoGPT 0.090 สะท้อนว่ามีการใช้งานและดัดแปลงโค้ดจริงในระดับหนึ่ง
- อัตราส่วนดาวต่อ watcher อยู่ที่ Flask 0.029, LangChain 0.006, AutoGPT 0.005
- stargazer ของรีโพซิทอรีออร์แกนิกมีประวัติการใช้งานต่อเนื่องหลายปี มีโปรเจกต์ของตนเอง และมีลักษณะเป็นนักพัฒนาที่ติดตามผู้ใช้อื่น
- บัญชีผี ที่มีรีโพซิทอรี 0, ผู้ติดตาม 0 และไม่มีคำแนะนำตัว ถูกระบุว่ามีเพียงราว 1% ในโครงการที่ถือว่าสุขภาพดี
-
รีโพซิทอรีบล็อกเชนที่ถูกปั่น
- ค่าอายุบัญชีกลางของ Union Labs, Shardeum, FreeDomain และ Anoma อยู่ในช่วง 997 ถึง 1180 วัน ซึ่งมากพอจะผ่านตัวกรองบัญชีใหม่แบบง่าย ๆ
- แต่ภายในบัญชีกลับว่างเปล่า โดยสัดส่วนบัญชีที่มีรีโพซิทอรีสาธารณะ 0 อยู่ที่ 28.0% ถึง 38.0%, สัดส่วนผู้ติดตาม 0 คนอยู่ที่ 52.0% ถึง 81.3%, และสัดส่วนบัญชีผีอยู่ที่ 19.3% ถึง 28.7%
- อัตราส่วนดาวต่อฟอร์กอยู่ที่ Union Labs 0.052, Shardeum 0.022, FreeDomain 0.017, Anoma 0.121
- อัตราส่วนดาวต่อ watcher ก็ต่ำมากเช่นกัน เช่น FreeDomain อยู่ที่ 0.001
- บัญชีลักษณะนี้ถูกตีความว่าเป็นรูปแบบการซื้อบัญชีเก่าหรือกว้านบัญชีแบบฟาร์มเพื่อนำมาใช้ในแคมเปญเพิ่มดาว
- อัตราส่วนดาวต่อฟอร์กถูกระบุว่าเป็นสัญญาณที่ชัดเจนที่สุด
- Flask มีฟอร์ก 235 ครั้งต่อดาว 1000 ดวง
- Shardeum มี 22 ครั้ง
- FreeDomain มี 17 ครั้ง
- อัตราส่วนดาวต่อ watcher ก็ชี้ไปในทิศทางเดียวกัน โดยค่า 0.001 ของ FreeDomain หมายความว่ามีผู้ใช้เพียงประมาณ 1 คนต่อดาว 1000 ดวงที่คอยติดตามการอัปเดตจริง
-
FreeDomain
- มี ดาว 157,000 ดวง แต่มี watcher 168 คน และฟอร์ก 2676 ครั้ง
- อัตราส่วนดาวต่อ watcher ต่ำกว่า Flask ถึง 26 เท่า
- ในกลุ่ม stargazer ที่สุ่มตัวอย่างมา 81.3% มีผู้ติดตาม 0 คน แสดงให้เห็นว่าโครงสร้างบัญชีแทบไม่มีฐานกิจกรรมที่มองเห็นได้บน GitHub
-
Union Labs
- ถูกจัดให้อยู่ อันดับ 1 ของ Runa Capital ROSS Index ในไตรมาส 2 ปี 2025 โดยมีอัตราการเพิ่มขึ้นของดาว 54.2 เท่า และมีดาว 74,300 ดวง
- ในการวิเคราะห์ภายในพบว่ามีบัญชีที่มีรีโพซิทอรีสาธารณะ 0 อยู่ 32.7%, บัญชีผู้ติดตาม 0 คน 52% และอัตราส่วนดาวต่อฟอร์ก 0.052
- ในการวิเคราะห์ของ StarScout ถูกระบุว่าเป็น ดาวปลอมที่น่าสงสัย 47.4%
- สิ่งนี้เผยให้เห็นโครงสร้างที่โครงการซึ่งเกือบครึ่งหนึ่งของดาวอาจถูกสร้างขึ้นอย่างไม่เป็นธรรมชาติ กลับขึ้นไปอยู่บนสุดของรายงานค้นหาการลงทุนที่ทรงอิทธิพลซึ่ง VC ใช้อ้างอิง
-
หมวด AI
- เมื่อเปรียบเทียบ RagaAI, openai-fm, Langflow และ hermes-agent พบว่าค่าตัวชี้วัดภายในรีโพซิทอรี AI ก็แตกต่างกันมาก
- RagaAI-Catalyst มีสัดส่วนบัญชีผู้ติดตาม 0 คน 76.2% และบัญชีผี 28.0% ซึ่งแทบจะเหมือนกับรูปแบบฝั่งบล็อกเชน
- openai-fm ถูกยกให้เป็นกรณีที่รุนแรงที่สุดในชุดข้อมูลทั้งหมด
- suspicious accounts 66.0%
- บัญชีผี 36.0%
- ค่าอายุบัญชีกลาง 116 วัน
- stargazer สองในสามมีอายุบัญชีไม่ถึง 1 ปีและแทบไม่มีกิจกรรมบน GitHub
- StarScout ระบุว่ากรณีนี้น่าจะเป็นบอตจากบุคคลที่สามมากกว่าจะเกี่ยวข้องกับ OpenAI โดยตรง
- Langflow ถูก StarScout ตีธงว่าปลอม 47.9% แต่จากการวิเคราะห์ตัวอย่างโปรไฟล์กลับพบว่ามีค่าอายุบัญชีกลาง 2859 วันและสัดส่วนบัญชีผีต่ำ จึงถือว่าค่อนข้างสะอาด
- มีการตั้งข้อสังเกตว่าเป็นไปได้ว่าคุณภาพบัญชีดีขึ้นหลังการสแกนของ StarScout
- อย่างไรก็ตาม อัตราส่วนดาวต่อฟอร์ก 0.060 ก็ยังต่ำ คิดเป็นเพียงประมาณหนึ่งในสี่ของ Flask
- hermes-agent ของ NousResearch ถูกจัดเป็นรีโพซิทอรีที่ค่อนข้างออร์แกนิก
- ค่าอายุบัญชีกลาง 8 ปี
- บัญชีผี 6%
- อัตราส่วนดาวต่อฟอร์ก 0.133
- แม้จะมีเสียงกล่าวหาว่า astroturfing บน Reddit แต่ stargazer ส่วนใหญ่ถูกวิเคราะห์ว่าเป็นนักพัฒนาจริง
- แม้สัดส่วนผู้ติดตาม 0 คนจะค่อนข้างสูงเพราะฐานผู้ใช้ที่อยู่ใกล้เคียงกับคริปโต แต่รูปแบบการมีส่วนร่วมพื้นฐานยังถูกประเมินว่าชอบธรรม
เส้นทางที่ดาวกลายเป็นเงินทุน
- ความเชื่อมโยงระหว่างจำนวนดาวบน GitHub กับการระดมทุนของสตาร์ตอัปถูกนำเสนอว่าไม่ใช่การคาดเดา แต่เป็นความสัมพันธ์ที่นักลงทุนเป็นผู้บันทึกไว้เอง
- Jordan Segall จาก Redpoint Ventures วิเคราะห์บริษัทด้าน developer tools 80 แห่ง และพบว่า ค่ากลางของจำนวนดาวตอนระดมทุนรอบ seed คือ 2850 ดวง และ รอบ Series A คือ 4980 ดวง
- เขาระบุโดยตรงว่า VC จำนวนมากใช้โปรแกรมสแครปภายในเพื่อค้นหาโปรเจกต์ GitHub ที่เติบโตเร็ว และตัวชี้วัดที่ดูบ่อยที่สุดก็คือจำนวนดาว
- ตัวเลขนี้ทำให้สตาร์ตอัปมีเป้าหมายเชิงซื้อที่แทบจะเป็นรูปธรรม
- หากใช้ดาวราคาถูก 85 ถึง 285 ดอลลาร์ ก็สามารถปั่นถึงค่ากลาง 2850 ดวงของรอบ seed ได้
- หากใช้ 990 ถึง 4500 ดอลลาร์ ก็สามารถเข้าใกล้ช่วงของ Series A ได้
- เมื่อเทียบกับรอบ seed ทั่วไปที่ 1 ล้านถึง 10 ล้านดอลลาร์ จะคำนวณได้เป็นช่วง ROI ราว 3500 เท่าถึง 117,000 เท่า
- Runa Capital เผยแพร่ ROSS Index ทุกไตรมาส โดยจัดอันดับสตาร์ตอัปโอเพนซอร์ส 20 อันดับแรกจากอัตราการเติบโตของดาวบน GitHub
- ตามข้อมูลของ TechCrunch สตาร์ตอัปที่ได้รับเงินลงทุน 68% ระดมทุนได้ในรอบ seed และมูลค่ารวมของรอบที่ติดตามได้อยู่ที่ 169 ล้านดอลลาร์
- GitHub เองก็ลงทุนปีละ 10 ล้านดอลลาร์ ผ่าน GitHub Fund ร่วมกับ M12 และใช้ traction บนแพลตฟอร์มเป็นส่วนหนึ่งของเกณฑ์ในการลงทุนในบริษัทโอเพนซอร์สระยะ pre-seed และ seed ปีละ 8 ถึง 10 แห่ง
- มีการยกตัวอย่างหลายกรณีที่ดาวนำไปสู่การระดมทุน
- Lovable: มีดาวมากกว่า 50,000 ดวง, ระดมทุน pre-seed 7.5 ล้านดอลลาร์ และจากทีม 45 คนระดม Series A มูลค่า 200 ล้านดอลลาร์ที่ มูลค่ากิจการ 1.8 พันล้านดอลลาร์
-
Pangolin**: มีดาว 1000 ดวงในเดือนมกราคม 2025, ผ่าน Y Combinator และภายในเดือนสิงหาคม 2025 ระดมทุน seed ได้ 4.7 ล้านดอลลาร์
-
Browser-use**: มีดาว 50,000 ดวงในเวลา 3 เดือน, เข้า Y Combinator W25,** และระดมทุน seed ได้ 17 ล้านดอลลาร์
- LangChain: ได้รับ เงินลงทุน 10 ล้านดอลลาร์ จาก Benchmark ในรอบ seed
- Fraser Marlow จาก Dagster ก็กล่าวตรง ๆ ว่าก่อนระดมทุนเขาให้ความสำคัญกับดาวบน GitHub อย่างมาก
- งานวิจัยในวารสาร Organization Science ยังแสดงความสัมพันธ์เชิงสถิติระหว่างกิจกรรมบน GitHub กับผลลัพธ์การระดมทุนของสตาร์ตอัป
- สตาร์ตอัปที่เคลื่อนไหวอย่างคึกคักบน GitHub มีโอกาสระดมทุนได้สูงกว่า 15 จุดเปอร์เซ็นต์
- ผลลัพธ์คือเกิดวงจรเสริมตัวเองแบบ VC ติดตามดาว → สตาร์ตอัปปั่นดาว → การรับรู้ traction ที่พองเกินจริง → VC มากขึ้นนำไปใช้ → การปั่นมากขึ้น
- เกณฑ์ตัวเลขที่ Redpoint เปิดเผยต่อสาธารณะยังทำหน้าที่เป็นการให้ค่าเป้าหมายที่แม่นยำแก่สตาร์ตอัปด้วย
อัตราส่วน fork ต่อ star: ฮิวริสติกการตรวจจับแบบง่าย
- ในการวิเคราะห์ของผู้เขียนเอง อัตราส่วน fork ต่อ star เป็นตัวชี้วัดแบบง่ายที่ทรงพลังที่สุดในการระบุการปั่นตัวเลขที่อาจเกิดขึ้น
- ตรรกะนั้นเรียบง่าย
- การกด star ทำได้โดยไม่เสียต้นทุนและไม่ได้หมายถึงความมุ่งมั่นที่แท้จริง
- fork หมายถึงมีการดาวน์โหลดโค้ดไปใช้งานหรือแก้ไขจริง
- มีการนำเสนอค่าเฉลี่ยอัตราส่วน fork ต่อ star แยกตามหมวดหมู่ดังนี้
- 3 รีโพซิทอรีฐานอ้างอิงแบบออร์แกนิกอยู่ที่ 0.160
- 5 รีโพซิทอรีเครื่องมือ AI อยู่ที่ 0.124
- 4 รีโพซิทอรีในคลัสเตอร์บล็อกเชนที่น่าสงสัยว่าถูกปั่น อยู่ที่ 0.053
- 2 รีโพซิทอรีกรณีสุดโต่งอยู่ที่ 0.020
- มีการเสนอเกณฑ์ว่า รีโพซิทอรีที่ มี star มากกว่า 10,000 และมีอัตราส่วน fork ต่อ star ต่ำกว่า 0.05 ควรถูกตรวจสอบอย่างใกล้ชิด
- อัตราส่วน watcher ต่อ star ถูกเสนอเป็นสัญญาณเสริมที่เข้าใจได้ง่ายกว่า
- โปรเจกต์แบบออร์แกนิกมีค่าเฉลี่ย 0.005 ถึง 0.030
- FreeDomain อยู่ที่ 0.001
- อัตราส่วนนี้ไม่ใช่เกณฑ์ตัดสินที่สมบูรณ์แบบ เพราะรีโพซิทอรีเพื่อการศึกษาหรือ curated list อาจมีอัตรา fork ต่ำโดยธรรมชาติ
- ถึงอย่างนั้น ก็ยังถูกประเมินว่ามีประโยชน์ในการใช้เป็นตัวกรองด่านแรกเพื่อจับ กรณีที่รุนแรงที่สุด ซึ่งมักหลุดรอดไปหากดูเพียงจำนวน star แบบดิบ
ความนิยมปลอมนอก GitHub
- ปรากฏการณ์เดียวกันนี้ขยายไปยังทุกแพลตฟอร์มที่เมตริกความนิยมมีผลต่อความน่าเชื่อถือ
- ยอดดาวน์โหลด npm สามารถปั่นให้สูงเกินจริงได้ง่ายมาก
- Andy Richardson ใช้เพียง free tier ของ AWS Lambda ฟังก์ชันเดียว ก็สามารถดันแพ็กเกจ
is-introspection-queryให้มียอดดาวน์โหลดเกือบ 1 ล้านครั้งต่อสัปดาห์ - ตัวเลขนี้สูงกว่าแพ็กเกจปกติอย่าง
urql,mobxแต่ระบุว่าผู้ใช้จริงมี 0 คน - งานวิจัยของ CMU พบว่า ในบรรดารีโพซิทอรีที่มีแคมเปญปั่น star มีเพียง 1.23% เท่านั้นที่ไปปรากฏในแพ็กเกจรีจิสทรี แต่ใน 738 แพ็กเกจนั้น 70.46% ไม่มีโปรเจกต์ที่พึ่งพาเลยแม้แต่ตัวเดียว
- Andy Richardson ใช้เพียง free tier ของ AWS Lambda ฟังก์ชันเดียว ก็สามารถดันแพ็กเกจ
- ส่วนขยาย VS Code Marketplace ก็มีจุดอ่อนแบบเดียวกัน
- นักวิจัยพิสูจน์ได้ว่าสามารถสร้างยอดติดตั้งส่วนขยายปลอมได้ มากกว่า 1,000 ครั้ง ภายใน 48 ชั่วโมง
- AquaSec พบส่วนขยาย 1,283 ตัว ที่มี dependency อันตรายที่รู้จักอยู่แล้ว โดยมียอดติดตั้งรวม 229 ล้านครั้ง
- การโปรโมตบน X/Twitter ช่วยขยายการไวรัลบน GitHub แบบปลอม ๆ
- มีกลุ่มปิดที่เรียกว่า engagement pod ซึ่งสมาชิกจะแลกเปลี่ยนการกดไลก์ รีโพสต์ และคอมเมนต์ให้กัน
- Growth Terminal นำสิ่งนี้ไปขายเป็นฟีเจอร์ของผลิตภัณฑ์
- NBC News และนักวิจัยจาก Clemson University ตรวจพบเครือข่าย 686 บัญชี X ที่โพสต์คอนเทนต์ซึ่งสร้างด้วย LLM มากกว่า 130,000 ครั้ง
- บางโพสต์มีร่องรอยของโมเดลที่ใช้ เช่นวลีอย่าง "Dolphin here!"
- กรณีของ Higgsfield AI แสดงให้เห็นการ astroturfing ข้ามแพลตฟอร์มในระดับใหญ่ที่มีการบันทึกไว้เป็นเอกสาร
- มี โพสต์สแปมมากกว่า 100 โพสต์ ครอบคลุมกว่า 60 ซับเรดดิต
- ควบคู่กับการส่ง DM แบบเทมเพลตจำนวนมากเพื่อเสนอค่าตอบแทนให้ครีเอเตอร์ช่วยโปรโมต
ความเสี่ยงทางกฎหมายที่แทบไม่ถูกพูดถึง
- FTC Consumer Review Rule จะมีผลบังคับใช้ตั้งแต่วันที่ 21 ตุลาคม 2024 และระบุชัดว่าห้ามซื้อขาย "ตัวชี้วัดอิทธิพลบนโซเชียลมีเดียปลอม" ที่อาศัยบอตหรือบัญชีปลอมเพื่อวัตถุประสงค์ทางการค้า
- บทลงโทษเมื่อฝ่าฝืนระบุไว้ที่ สูงสุด 53,088 ดอลลาร์ต่อกรณี
- FTC ได้ส่งจดหมายเตือนชุดแรกไปยัง 10 บริษัทในปี 2025 และอธิบายว่าการซื้อ GitHub star เพื่อโปรโมตผลิตภัณฑ์เชิงพาณิชย์ก็เข้าข่ายภายใต้กรอบนี้
- บรรทัดฐานของ SEC ก็ถูกยกเป็นตัวอย่างที่ตรงประเด็นยิ่งกว่า
- CEO ของ HeadSpin ถูกตั้งข้อหาฉ้อโกงผ่านสื่อสารและฉ้อโกงหลักทรัพย์ จากข้อกล่าวหาว่าปั่นตัวเลขเพื่อระดมเงิน 80 ล้านดอลลาร์จากนักลงทุน
- ผู้ก่อตั้ง ComplYant กำลังเผชิญข้อกล่าวหาหลังอ้างว่ามีรายรับต่อเดือน 250,000 ดอลลาร์ ทั้งที่จริงมีเพียง 250 ดอลลาร์
- SEC ส่งสารชัดเจนว่าผู้ระดมทุนสตาร์ทอัพไม่สามารถใช้วัฒนธรรม "fake it until you make it" เพื่อหลอกลวงนักลงทุนได้
- มีการเชื่อมโยงว่า หากสตาร์ทอัพปั่น traction ด้วย GitHub star ปลอม ระหว่างการระดมทุน และนักลงทุนนำเมตริกนั้นไปใช้เป็นเหตุผลในการลงเงิน ก็อาจเข้าข่าย กรอบการฉ้อโกงผ่านสื่อสาร ในฐานะการบิดเบือนข้อเท็จจริงสำคัญผ่านการสื่อสารอิเล็กทรอนิกส์
- แม้ยังไม่มีคดีที่ถูกฟ้องร้องจาก GitHub star ปลอมเพียงอย่างเดียว แต่เมื่อพิจารณาจากหลักฐานเชิงประจักษ์ขนาดใหญ่ของงานวิจัย CMU และข้อห้ามที่ FTC ระบุไว้อย่างชัดเจน ก็มีการมองว่าอาจเป็นเพียงเรื่องของเวลา
การตอบสนองของ GitHub
- Acceptable Use Policies ของ GitHub ระบุห้ามอย่างชัดเจนทั้งการมีปฏิสัมพันธ์ที่ไม่แท้จริง บัญชีปลอมและกิจกรรมอัตโนมัติที่ไม่แท้จริง การปั่นอันดับอย่างการ star หรือ follow อัตโนมัติ ตลอดจนการเข้าร่วมตลาดรองที่ใช้ขยายกิจกรรมไม่แท้จริง
- star ที่ถูกจูงใจด้วยรางวัลอย่างคริปโตแอร์ดรอป โทเค็น เครดิต หรือของขวัญ ก็ถือเป็นสิ่งต้องห้ามตามนโยบายเช่นกัน
- การบังคับใช้นั้นถูกประเมินว่า เป็นเชิงตอบสนองและไม่สมมาตร
- รีโพซิทอรีที่ StarScout ทำเครื่องหมายไว้ถูกลบ 90.42% แต่บัญชีที่เป็นผู้ให้ star เหล่านั้นถูกลบเพียง 57.07%
- โครงสร้างพื้นฐานของบัญชีจำนวนมากที่สามารถใช้ในแคมเปญครั้งต่อไปจึงยังคงอยู่
- ในการสืบสวนของ Dagster ก็พบว่าโปรไฟล์ star ปลอมถูกลบภายใน 48 ชั่วโมง แต่ถูกนำเสนอว่าเป็นการตอบสนองหลังถูกประจานต่อสาธารณะ ไม่ใช่กรณีตรวจจับล่วงหน้า
- GitHub ไม่เคยเผยแพร่ บทความใน engineering blog ที่อธิบายวิธีตรวจจับการปั่น star หรือสถิติการบังคับใช้นโยบาย และก็ไม่มีรายงานความโปร่งใสแยกต่างหาก
- รองประธานฝ่ายปฏิบัติการความปลอดภัยของ GitHub ตอบกับ Wired เพียงว่าได้ปิดการใช้งานบัญชีตามนโยบาย และปฏิเสธให้รายละเอียดเพิ่มเติม
- อย่างไรก็ตาม มีการระบุว่าคำกล่าวนี้เป็นความเห็นเกี่ยวกับปฏิบัติการมัลแวร์ Stargazers Ghost Network ไม่ใช่การปั่น vanity metric
- นักวิจัย CMU แนะนำให้ใช้ เมตริกความนิยมแบบถ่วงน้ำหนัก ที่อิง network centrality แทนจำนวน star แบบดิบ
- ถูกนำเสนอว่าเป็นการเปลี่ยนแปลงที่อาจบั่นทอนเศรษฐกิจ star ปลอมได้ในเชิงโครงสร้าง
- GitHub ยังไม่ได้นำข้อเสนอนี้ไปใช้
เมตริกที่ VC ควรดูแทน
- Bessemer Venture Partners เรียก star ว่าเป็น vanity metrics และหันไปติดตามกิจกรรมของผู้มีส่วนร่วมแบบไม่ซ้ำรายเดือนแทน
- รวมทั้งผู้ที่สร้าง issue แสดงความคิดเห็น ทำ PR และ commit
- ในบรรดา 10,000 โปรเจกต์ชั้นนำ มีไม่ถึง 5% ที่มีผู้มีส่วนร่วมรายเดือนเกิน 250 คน
- และมีเพียง 2% เท่านั้นที่รักษาระดับนี้ได้ต่อเนื่อง 6 เดือน
- Jono Bacon แห่ง StateShift แนะนำ 5 เมตริกที่สัมพันธ์กับการยอมรับใช้งานจริง
- ยอดดาวน์โหลดแพ็กเกจ
- คุณภาพของ issue ที่สะท้อน production edge case จากผู้ใช้จริง
- การรักษาผู้มีส่วนร่วม วัดจากเวลาที่ใช้จนถึง PR ครั้งที่สอง
- ความลึกของการสนทนาในชุมชน
- usage telemetry
- อัตราส่วน fork ต่อ star ที่ปรากฏในการวิเคราะห์ของผู้เขียนเองถูกเสนอเป็นตัวกรองด่านแรกที่ง่ายที่สุด
- โปรเจกต์ที่แข็งแรงมักมีประมาณ 100 ถึง 200 fork ต่อทุก 1,000 star
- หากจำนวน star โดยรวมสูง แต่มี fork น้อยกว่า 50 ต่อทุก 1,000 star ก็ควรตรวจสอบเพิ่มเติม
- มีการยกคำพูดว่า "จำนวน star อาจหลอกกันได้ แต่บั๊กฟิกซ์ที่ช่วยชีวิตสุดสัปดาห์ของใครสักคน หลอกกันไม่ได้"
ปัญหาเชิงโครงสร้าง
- มีการเสนอพลวัต 3 ประการเพื่ออธิบายว่าเหตุใดเศรษฐกิจดาวปลอมจึงยิ่งทวีความรุนแรงได้ด้วยตัวเอง
-
วงจรแรงจูงใจ
- VC ใช้จำนวนดาวเป็นสัญญาณสำหรับการคัดหาโอกาสลงทุน
- สตาร์ทอัพปั่นจำนวนดาว
- VC ตรวจพบ traction ที่ถูกทำให้ดูสูงเกินจริง
- VC จำนวนมากขึ้นนำการติดตามจำนวนดาวมาใช้
- เกิดโครงสร้างวนซ้ำที่ทำให้สตาร์ทอัพจำนวนมากขึ้นกระโดดเข้ามาปั่นตาม
- เกณฑ์มาตรฐานที่ Redpoint เปิดเผยต่อสาธารณะ รอบ Seed 2,850 รายการ และ Series A 4,980 รายการ ทำหน้าที่เสมือนเป็นตารางจำนวนที่ต้องซื้อโดยพฤตินัย
-
ความเปราะบางของภาค AI
- ภาวะร้อนแรงเกินควร โครงสร้างเงินทุนแบบใกล้เคียงคริปโตที่ให้รางวัลกับราคาโทเคนมากกว่าคุณภาพผลิตภัณฑ์ และระบบนิเวศนักรีวิวบน X/Twitter ที่ปะปนด้วยตัวตนปลอมที่ถูกจัดฉาก รวมกันสร้างสภาพแวดล้อมที่เอื้อต่อ ความน่าเชื่อถือที่ถูกผลิตขึ้น
- ในการวิเคราะห์ของผู้เขียนเอง ก็พบว่าหลายรีโพซิทอรีที่มีสัญญาณการปั่นแย่ที่สุดเป็นโปรเจ็กต์ AI ที่อยู่ใกล้เคียงกับบล็อกเชนและคริปโต
-
ความไม่สมมาตรของการบังคับใช้บน GitHub
- การลบรีโพซิทอรีออก แต่ยังปล่อยให้บัญชีปลอม 57% คงอยู่ต่อไป เท่ากับรักษา แรงงาน ของเศรษฐกิจดาวปลอมเอาไว้
- แรงยับยั้งต่อการกระทำผิดซ้ำยังอ่อนแอ
- มีการสรุปว่า หาก GitHub ไม่ปรับเปลี่ยนเชิงโครงสร้าง เช่น ตัวชี้วัดความนิยมแบบถ่วงน้ำหนัก คะแนนความน่าเชื่อถือระดับบัญชี และรายงานการบังคับใช้ที่โปร่งใส ช่องว่างระหว่างจำนวนดาวกับการยอมรับใช้งานจริงของนักพัฒนาจะยิ่งกว้างขึ้นต่อไป
- เศรษฐกิจดาวปลอมถูกสรุปว่าเป็นโครงสร้างที่ ปัญหาราคา 50 ดอลลาร์ ก่อให้เกิด ผลลัพธ์มูลค่า 50 ล้านดอลลาร์
- ปิดท้ายด้วยประโยคว่า จนกว่าแพลตฟอร์ม นักลงทุน และหน่วยงานกำกับดูแลจะไล่ตามให้ทัน ตลาดก็จะยังคงจ่ายเงิน 50 ดอลลาร์นั้นต่อไป
7 ความคิดเห็น
พวกมิจฉาชีพอย่าง oh-my-claudecode กับ claw-code 555
SKT เป็นบริษัทที่ล้ำหน้ามากเลยสินะ
ผมก็นึกถึงเหตุการณ์นี้เหมือนกัน นี่ก็ผ่านมา 7 ปีแล้วสินะ
โดยส่วนตัวแล้วผมมองว่า stars ควรใช้ดูเป็นค่าอย่างน้อยขั้นต่ำ ไม่ได้ใช้เป็นเกณฑ์ตัดสินในตัวมันเอง
โปรเจกต์ที่มี stars ไม่ถึง 100 อาจต้องพิจารณาอย่างระแวดระวังมากขึ้น แต่ก็ไม่ได้หมายความว่าถ้ามี stars เกิน 50,000 แล้วจะเชื่อถือได้โดยอัตโนมัติ
เป็นท่าทีที่ถูกต้องแล้ว
แนวทางที่เข้าถึงโดยอิงจาก stargazer นี่ดีเลยครับ
ช่วงนี้มีหลายรีโพซิทอรีที่แม้จะมี 10,000 หรือ 100,000 ดาวก็ยังไม่น่าไว้วางใจ เลยอยากให้ GitHub รับมือได้อย่างรวดเร็วครับ
ความคิดเห็นบน Hacker News