14 คะแนน โดย GN⁺ 2024-08-22 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • Semantic Web คือ Web 3.0 ในความหมายแบบเก่า ก่อนที่คำว่า "Web 3.0" จะถูกใช้ในความหมายว่า "พวกคริปโตอะไรทำนองนั้น" โดยเดิมหมายถึง "เว็บไซต์ที่เครื่องอ่านเข้าใจได้ (Machine-Readable)"
  • เคยคิดว่าแนวคิด Semantic Web ไม่ได้ถูกใช้อีกต่อไปแล้ว แต่จริง ๆ แล้วตอนนี้มันถูกนำไปใช้อย่างแพร่หลายมาก จนแทบพูดได้ว่าเราใช้งานเว็บ 3.0 กันอยู่แล้ว
  • ถ้า Web 3.0 มีอยู่แล้ว มันอยู่ตรงไหน? ส่วนใหญ่มันซ่อนอยู่ใน markup

การโพสต์บล็อกด้วย JSON-LD

  • สามารถใส่เมตาดาตา JSON-LD ได้โดยเพิ่มองค์ประกอบ <script type="application/ld+json"> ลงใน <head> ของหน้า HTML
  • JSON-LD เป็นฟอร์แมตหลักสำหรับเข้ารหัสเมตาดาตาของ Semantic Web
  • ตัวอย่าง: คำอธิบายที่ใช้ประเภท BlogPosting
{  
  "@context": "https://schema.org";,  
  "@type": "BlogPosting",  
  "headline": "From Shell to Excel - with a little bit of HTTPS",  
  "url": "https://csvbase.com/blog/10";,  
  "description": "Write once, read everywhere",  
  "author": {  
    "@type": "Person",  
    "name": "Cal Paterson",  
    "email": "cal@calpaterson.com",  
    "url": "https://calpaterson.com/about.html";  
  },  
  "image": "https://csvbase.com/blog-static/excel.png";,  
  "datePublished": "2024-08-12",  
  "dateCreated": "2024-08-12",  
  "dateModified": "2024-08-12"  
}  
  • คีย์ที่ขึ้นต้นด้วย @ คือเมตาดาตา (หรือเมตาดาตาของเมตาดาตา?)
    • @context หมายถึง namespace และ @type หมายถึงชนิดของคลาส
    • คีย์ที่เหลือคือรายการที่อนุญาตให้ใช้ได้ในประเภท BlogPosting
  • ค่าของคีย์อาจเป็นชนิดอื่นได้ด้วย (เช่น Person ในคีย์ author)

แล้วมันมีประโยชน์อะไรกับฉัน?

  • ใครอ่านสิ่งนี้? มีบอตจำนวนมากที่ parse เมตาดาตา JSON-LD
  • โพสต์บล็อกที่มีเมตาดาตา Semantic Web จะช่วยให้เว็บไซต์โซเชียลมีเดียแสดงตัวอย่างลิงก์ได้ และเพิ่มอัตราการคลิก
  • โปรแกรมรวบรวมข้อมูลของเสิร์ชเอนจินใช้เมตาดาตานี้เพื่อแสดงข้อมูลเพิ่มเติมในผลการค้นหา
  • ตัวรวบรวมลิงก์อัตโนมัติใช้ข้อมูลนี้เพื่อแสดงโพสต์ให้ผู้ใช้เห็น (คล้ายกับที่ Android แสดงหลายเว็บไซต์ในหน้าข่าว)
  • เมตาดาตา Semantic Web ไม่ต้องขออนุญาตและเป็นกลางต่อผู้ให้บริการ

มันยากไหม?

  • ไม่ยาก JSON-LD เรียบง่ายมาก
    • JSON-LD คือการจัดข้อมูลที่มีอยู่แล้วบนหน้าเพจให้อยู่ในรูปแบบที่คอมพิวเตอร์อ่านได้
  • ถ้าคุณเขียนแอปฟรอนต์เอนด์ได้ คุณก็เข้าใจ JSON-LD ได้ไม่ยาก

ประเภทอื่น ๆ ของ JSON-LD

  • นอกจาก BlogPosting แล้ว ยังมีประเภทอย่าง Event, LocalBusiness, JobPosting, Product, Recipe เป็นต้น
  • csvbase ใช้ประเภท Dataset เพื่ออธิบายข้อมูลตาราง
{  
  "@context": ["https://schema.org";, {"csvw": "https://www.w3.org/ns/csvw#";}],  
  "@type": "Dataset",  
  "name": "stock-exchanges",  
  "url": "https://csvbase.com/meripaterson/stock-exchanges";,  
  "isAccessibleForFree": true,  
  "distribution": [  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv";,  
      "encodingFormat": "text/csv",  
      "contentSize": "16222"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet";,  
      "encodingFormat": "application/parquet",  
      "contentSize": "10751"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx";,  
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",  
      "contentSize": "15500"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl";,  
      "encodingFormat": "application/x-jsonlines",  
      "contentSize": "38627"  
    }  
  ],  
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",  
  "dateModified": "2023-04-02T20:27:33.255648+01:00",  
  "maintainer": {  
    "@type": "Person",  
    "name": "meripaterson",  
    "url": "https://csvbase.com/meripaterson";  
  },  
  "description": "The world's stock exchanges...",  
  "mainEntity": {  
    "@type": "csvw:Table",  
    "csvw:tableSchema": {  
      "csvw:columns": [  
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},  
        {"csvw:name": "Continent", "csvw:datatype": "string"},  
        {"csvw:name": "Country", "csvw:datatype": "string"},  
        {"csvw:name": "Name", "csvw:datatype": "string"},  
        {"csvw:name": "MIC", "csvw:datatype": "string"},  
        {"csvw:name": "Last changed", "csvw:datatype": "date"}  
      ]  
    }  
  }  
}  

ทั้งหมดนี้จำเป็นจริงหรือ? AI จะจัดการให้หมดไม่ได้หรือ?

  • โมเดลภาษาขนาดใหญ่ (LLM) มักทำผิดพลาดได้บ่อย
  • การให้เมตาดาตาเพื่อรับประกันความถูกต้องจึงเป็นเรื่องสำคัญ
  • การใช้ LLM มีค่าใช้จ่ายสูง และต้องใช้ GPU เพื่ออ่านหน้าเว็บ

ทางเลือกอื่น

  • Open Graph Protocol: มาตรฐานที่ Facebook สร้างขึ้น โดยใช้เพื่ออธิบายคอนเทนต์เป็นหลัก
  • Microdata: เรียบง่าย แต่ parse ได้ยาก
  • Twitter Cards: อธิบายว่า Twitter ควรแสดงคอนเทนต์อย่างไร
  • มาตรฐานเก่าแบบ XML: ได้รับการรองรับอย่างลึกซึ้งในระบบห้องสมุดและคลังข้อมูล

เทคโนโลยีที่น่าเบื่อ (Boring technology)

  • น่าประหลาดใจมากที่ Semantic Web ดู low-key ถึงขนาดนี้ ทั้งที่มีเว็บไซต์จำนวนมากตั้งค่าเมตาดาตาแบบนี้ไว้แล้ว
  • "Semantic Web แพร่หลายไปแล้ว เพียงแต่ไม่มีช่วงเวลาแห่งชัยชนะที่ชัดเจน"

สรุปโดย GN⁺

  • Semantic Web เป็นเทคโนโลยีที่ทำให้เว็บไซต์อยู่ในรูปแบบที่เครื่องอ่านเข้าใจได้ และถูกใช้งานอย่างแพร่หลายแล้ว
  • JSON-LD เป็นฟอร์แมตหลักสำหรับเข้ารหัสเมตาดาตา Semantic Web และรองรับหลากหลายประเภท เช่น บล็อกโพสต์ อีเวนต์ และสินค้า
  • เมตาดาตา Semantic Web ช่วยให้โซเชียลมีเดียและเสิร์ชเอนจินแสดงตัวอย่างลิงก์และผลการค้นหาที่ดีขึ้น
  • การใช้ AI เพื่อดึงเมตาดาตาอัตโนมัติอาจมีค่าใช้จ่ายสูงและไม่แม่นยำ
  • มีทางเลือกหลายแบบ เช่น Open Graph Protocol, Microdata และ Twitter Cards

4 ความคิดเห็น

 
cometkim 2024-08-22

ขอแนะนำบทความนี้สำหรับผู้ที่สงสัยเกี่ยวกับประวัติของ Semantic Web และสถานะของมันในปัจจุบัน

https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…

 
[ความคิดเห็นนี้ถูกซ่อน]
 
ipuris 2024-08-22

ผมไม่ได้คิดว่า JSON-LD คือแกนกลางหรือเทคโนโลยีหลักของ Semantic Web แต่ก็เห็นด้วยมากกับคำพูดที่ว่า "Semantic Web แพร่หลายไปอย่างกว้างขวางแล้ว เพียงแค่ไม่มีช่วงเวลาแห่งชัยชนะเท่านั้น"..!

 
GN⁺ 2024-08-22
ความเห็นบน Hacker News
  • ปัญหาของมาตรฐาน Semantic Web

    • ตลอดหลายทศวรรษที่ผ่านมาไม่มี killer application
    • คุณภาพของเว็บแย่ลง และไม่มีเหตุการณ์แบบ Wikipedia เกิดขึ้น
    • วิสัยทัศน์ยังไม่สมบูรณ์: คำสั่งค้นหา SPARQL และ reasoners มีประโยชน์ แต่มีต้นทุนด้านความเข้าใจสูงเกินไปสำหรับผู้ใช้ทั่วไป
    • หากต้องการเว็บที่ดีกว่าเดิม ก็ยังจำเป็นต้องเดินไปในทิศทางของ Semantic Web
  • ประสบการณ์จากความพยายามที่ล้มเหลว

    • เว็บไซต์ที่ลองใช้ไม่มีหมวดหมู่ "Poem"
    • มีการร้องขอมาตั้งแต่ 9 ปีก่อน แต่ก็ยังไม่ได้รับการแก้ไข
  • การเปรียบเทียบ JSON-LD กับ RSS

    • "Googlers, JSON-LD อาจเป็นที่รู้จักได้มากพอๆ กับ RSS"
    • มีความเห็นว่าอยากให้เปิดตัวแล้วก็ยุติแอปหรือบริการเสียทีจะดีกว่า
  • ความหมายของ LLM กับ Semantic Web

    • ความหมายไม่ควรถูกกำหนดโดยผู้เผยแพร่
    • น่าสงสัยว่าผู้เผยแพร่ทั่วไปจะจัดหมวดหมู่ได้แม่นยำกว่า LLM หรือไม่
    • การแฮ็ก SEO และสแปมบล็อกเกิดขึ้นเพราะผู้เผยแพร่ถูกมองว่าเป็นแหล่งความจริงเพียงหนึ่งเดียว
    • ต้องแก้ปัญหาเรื่องการนิยามความหมายให้ได้
  • สถานะปัจจุบันของ Semantic Web

    • การประกาศชัยชนะเพียงเพราะมีการผสานรวมกับ Facebook หมายถึงความตายของ Semantic Web
    • OWL และมาตรฐานอื่น ๆ มีเป้าหมายเพื่อใส่คำอธิบายกำกับเนื้อหาบนหน้าเว็บ
    • ข้อมูลอย่างผู้เขียน ชื่อเรื่อง รูปภาพ และวันที่เผยแพร่ แทบไม่มีความหมายอะไรนัก
  • การขาดหายไปของแนวคิดสำคัญ

    • ไม่มีการกล่าวถึง linked data, RDF, การทำ federated query และ web query
    • JSON-LD เป็นเพียงรูปแบบการ serialize เท่านั้น
    • เทคโนโลยี linked data ช่วยเพิ่มการทำงานร่วมกันและการนำข้อมูลกลับมาใช้ซ้ำ
    • LLM และ linked data เป็นสิ่งที่เสริมกันได้
  • เมทาดาทาของ PDF

    • เมทาดาทาของ PDF ก็อิงกับมาตรฐาน Semantic Web เช่นกัน
    • เขียน RDF เป็น XML แทนที่จะใช้ JSON-LD
  • ความสำคัญของ HTML

    • ดูเหมือนผู้คนหลีกเลี่ยงมันเพราะคิดว่า HTML ยาก
    • ความหมายไม่ได้ซ่อนอยู่ในมาร์กอัป แต่ตัวมาร์กอัปนั่นเองคือความหมาย
  • AI กับเมทาดาทา

    • มีสองเหตุผลที่ AI ยังแทนที่เมทาดาทาไม่ได้
      • LLM มักตอบผิดอยู่บ่อย
      • เวลา GPU มีราคาแพง
    • LLM แสดงความแม่นยำได้ถึง 99% แล้วในตอนนี้
    • ในอนาคต การส่งข้อความผ่าน LLM จะไม่ใช่ปัญหาใหญ่อีกต่อไป
  • JSON-LD กับ SEO

    • Google ผลักดัน JSON-LD เพื่อปรับปรุง SEO มานานกว่า 5 ปี
    • เมทาดาทาของหน้าเว็บที่เกี่ยวข้องส่วนใหญ่ถูกเก็บไว้แล้วผ่าน Open Graph protocol
    • ไม่จำเป็นต้องทำงานเพิ่มเพื่อสร้าง JSON-LD