- "Overview of SHARD: A System for Highly Available Replicated Data" 1988
- เป็นงานวิจัยชิ้นแรกที่แนะนำการทำ database sharding และถูกอ้างอิงในงานวิจัยจำนวนมาก แต่กลับ "ไม่มีอยู่จริง"
- "Integral Neural Networks"
- "Blue Is the New Black (Market): Privacy Leaks and Re-Victimization from Police-Auctioned Cellphones"
- "Latency Lags Bandwidth"
- "Liquid solution centrifugation for safe, scalable, and efficient isotope separation"
- "Co-cultivation enhanced microbial protein production based on autotrophic nitrogen-fixing hydrogen-oxidizing bacteria"
- "Enso: A Streaming Interface for NIC-Application Communication"
- "Search-Based Regular Expression Inference on a GPU"
- "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
- "FP2: Fully in-Place Functional Programming"
- "Enabling tabular deep learning when d ≫ n with an auxiliary knowledge graph"
- "A Holistic Approach to Undesired Content Detection in the Real World"
3 ความคิดเห็น
Integral Neural Networks น่าประทับใจมากเลยครับ
ดูเหมือนว่าแก่นสำคัญจะเป็นแนวคิดเรื่องการทำให้การกระจายน้ำหนักเป็นแบบไม่ต่อเนื่อง โดยคล้ายกับทฤษฎีการสุ่มตัวอย่างที่บอกว่าสามารถทำให้การกระจายน้ำหนักซึ่งแสดงเป็นฟังก์ชันต่อเนื่องกลายเป็นแบบไม่ต่อเนื่องเพื่อเพิ่มประสิทธิภาพปริมาณการคำนวณได้
พอมองไปที่ LLM ในช่วงหลัง ๆ ก็จะเห็นว่ามีการทำ quantization ให้กับโมเดล เพื่อสร้างโมเดลที่ใช้การคำนวณน้อยลงแต่ยังให้ประสิทธิภาพใกล้เคียงเดิม ซึ่งก็ดูเป็นแนวทางที่คล้ายกันครับ
ข้อแรกดูหลุดโลกไปหน่อย แต่ก็น่าสนุกนะ
Where is the original "Overview of SHARD" paper?
พอไปดูคอมเมนต์ในลิงก์นั้น ก็เห็นว่าตัวผู้เขียนเองเพิ่งมาตอบไว้เมื่อไม่นานนี้เอง
เขาบอกว่าเป็นเอกสารสำหรับใช้ภายในองค์กร/สถาบันวิจัย จึงไม่มีวิธีเข้าถึงแบบสาธารณะ
"I'm the Ronni Rosenberg. This was an internal CCA paper (not from academia or a published journal), from 35 years ago! I don't have a copy and I have no idea how to get it. Sorry about that. It does seem to be the earliest reference to data "sharding." (The other early reference mentioned in Wikipedia is from much later, 1997.)
Fortunately, you need not go back 35 years to read about sharding; it's easy to get current info. Cheers."
จริง ๆ แล้วกรณีแบบนี้ก็เกิดขึ้นค่อนข้างบ่อย โดยเหตุผลที่ยังใส่อ้างอิงทั้งที่ตรวจดูเนื้อหาต้นฉบับจริงไม่ได้ ก็เพื่อระบุที่มาของแนวคิดเฉพาะหรือผลงานวิจัยที่บทความนั้นกล่าวถึงให้ชัดเจน ว่า Sharding ที่งานวิจัยชิ้นนี้พูดถึง เป็น Sharding แบบเดียวกับที่คนอื่นเข้าใจกันหรือไม่ หรือเป็นอีกแนวคิดหนึ่งที่คนอื่นเสนอไว้แต่แค่ใช้ชื่อเหมือนกัน หรือจริง ๆ แล้วเป็นแนวคิดที่ไม่มีอยู่จริงและเพียงแค่อ้างชื่อ Sharding ขึ้นมา นักวิจัยคนอื่นจึงจำเป็นต้องตรวจสอบในมุมของพวกเขาเอง
แม้แต่ในสายดีปเลิร์นนิงเอง ก็มีกรณีที่ชื่อเหมือนกันแต่เป็นโมเดลเครือข่ายที่เป็นผลงานวิจัยคนละชิ้นกันอยู่บ่อย ๆ เช่นกัน.