- Semantic Web คือ Web 3.0 ในความหมายแบบเก่า ก่อนที่คำว่า "Web 3.0" จะถูกใช้ในความหมายว่า "พวกคริปโตอะไรทำนองนั้น" โดยเดิมหมายถึง "เว็บไซต์ที่เครื่องอ่านเข้าใจได้ (Machine-Readable)"
- เคยคิดว่าแนวคิด Semantic Web ไม่ได้ถูกใช้อีกต่อไปแล้ว แต่จริง ๆ แล้วตอนนี้มันถูกนำไปใช้อย่างแพร่หลายมาก จนแทบพูดได้ว่าเราใช้งานเว็บ 3.0 กันอยู่แล้ว
- ถ้า Web 3.0 มีอยู่แล้ว มันอยู่ตรงไหน? ส่วนใหญ่มันซ่อนอยู่ใน markup
การโพสต์บล็อกด้วย JSON-LD
- สามารถใส่เมตาดาตา JSON-LD ได้โดยเพิ่มองค์ประกอบ
<script type="application/ld+json"> ลงใน <head> ของหน้า HTML
- JSON-LD เป็นฟอร์แมตหลักสำหรับเข้ารหัสเมตาดาตาของ Semantic Web
- ตัวอย่าง: คำอธิบายที่ใช้ประเภท BlogPosting
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "From Shell to Excel - with a little bit of HTTPS",
"url": "https://csvbase.com/blog/10",
"description": "Write once, read everywhere",
"author": {
"@type": "Person",
"name": "Cal Paterson",
"email": "cal@calpaterson.com",
"url": "https://calpaterson.com/about.html"
},
"image": "https://csvbase.com/blog-static/excel.png",
"datePublished": "2024-08-12",
"dateCreated": "2024-08-12",
"dateModified": "2024-08-12"
}
- คีย์ที่ขึ้นต้นด้วย @ คือเมตาดาตา (หรือเมตาดาตาของเมตาดาตา?)
@context หมายถึง namespace และ @type หมายถึงชนิดของคลาส
- คีย์ที่เหลือคือรายการที่อนุญาตให้ใช้ได้ในประเภท BlogPosting
- ค่าของคีย์อาจเป็นชนิดอื่นได้ด้วย (เช่น Person ในคีย์ author)
แล้วมันมีประโยชน์อะไรกับฉัน?
- ใครอ่านสิ่งนี้? มีบอตจำนวนมากที่ parse เมตาดาตา JSON-LD
- โพสต์บล็อกที่มีเมตาดาตา Semantic Web จะช่วยให้เว็บไซต์โซเชียลมีเดียแสดงตัวอย่างลิงก์ได้ และเพิ่มอัตราการคลิก
- โปรแกรมรวบรวมข้อมูลของเสิร์ชเอนจินใช้เมตาดาตานี้เพื่อแสดงข้อมูลเพิ่มเติมในผลการค้นหา
- ตัวรวบรวมลิงก์อัตโนมัติใช้ข้อมูลนี้เพื่อแสดงโพสต์ให้ผู้ใช้เห็น (คล้ายกับที่ Android แสดงหลายเว็บไซต์ในหน้าข่าว)
- เมตาดาตา Semantic Web ไม่ต้องขออนุญาตและเป็นกลางต่อผู้ให้บริการ
มันยากไหม?
- ไม่ยาก JSON-LD เรียบง่ายมาก
- JSON-LD คือการจัดข้อมูลที่มีอยู่แล้วบนหน้าเพจให้อยู่ในรูปแบบที่คอมพิวเตอร์อ่านได้
- ถ้าคุณเขียนแอปฟรอนต์เอนด์ได้ คุณก็เข้าใจ JSON-LD ได้ไม่ยาก
ประเภทอื่น ๆ ของ JSON-LD
- นอกจาก BlogPosting แล้ว ยังมีประเภทอย่าง Event, LocalBusiness, JobPosting, Product, Recipe เป็นต้น
- csvbase ใช้ประเภท Dataset เพื่ออธิบายข้อมูลตาราง
{
"@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],
"@type": "Dataset",
"name": "stock-exchanges",
"url": "https://csvbase.com/meripaterson/stock-exchanges",
"isAccessibleForFree": true,
"distribution": [
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv",
"encodingFormat": "text/csv",
"contentSize": "16222"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet",
"encodingFormat": "application/parquet",
"contentSize": "10751"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx",
"encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
"contentSize": "15500"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl",
"encodingFormat": "application/x-jsonlines",
"contentSize": "38627"
}
],
"dateCreated": "2022-04-25T13:43:24.746075+01:00",
"dateModified": "2023-04-02T20:27:33.255648+01:00",
"maintainer": {
"@type": "Person",
"name": "meripaterson",
"url": "https://csvbase.com/meripaterson"
},
"description": "The world's stock exchanges...",
"mainEntity": {
"@type": "csvw:Table",
"csvw:tableSchema": {
"csvw:columns": [
{"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},
{"csvw:name": "Continent", "csvw:datatype": "string"},
{"csvw:name": "Country", "csvw:datatype": "string"},
{"csvw:name": "Name", "csvw:datatype": "string"},
{"csvw:name": "MIC", "csvw:datatype": "string"},
{"csvw:name": "Last changed", "csvw:datatype": "date"}
]
}
}
}
ทั้งหมดนี้จำเป็นจริงหรือ? AI จะจัดการให้หมดไม่ได้หรือ?
- โมเดลภาษาขนาดใหญ่ (LLM) มักทำผิดพลาดได้บ่อย
- การให้เมตาดาตาเพื่อรับประกันความถูกต้องจึงเป็นเรื่องสำคัญ
- การใช้ LLM มีค่าใช้จ่ายสูง และต้องใช้ GPU เพื่ออ่านหน้าเว็บ
ทางเลือกอื่น
- Open Graph Protocol: มาตรฐานที่ Facebook สร้างขึ้น โดยใช้เพื่ออธิบายคอนเทนต์เป็นหลัก
- Microdata: เรียบง่าย แต่ parse ได้ยาก
- Twitter Cards: อธิบายว่า Twitter ควรแสดงคอนเทนต์อย่างไร
- มาตรฐานเก่าแบบ XML: ได้รับการรองรับอย่างลึกซึ้งในระบบห้องสมุดและคลังข้อมูล
เทคโนโลยีที่น่าเบื่อ (Boring technology)
- น่าประหลาดใจมากที่ Semantic Web ดู low-key ถึงขนาดนี้ ทั้งที่มีเว็บไซต์จำนวนมากตั้งค่าเมตาดาตาแบบนี้ไว้แล้ว
- "Semantic Web แพร่หลายไปแล้ว เพียงแต่ไม่มีช่วงเวลาแห่งชัยชนะที่ชัดเจน"
สรุปโดย GN⁺
- Semantic Web เป็นเทคโนโลยีที่ทำให้เว็บไซต์อยู่ในรูปแบบที่เครื่องอ่านเข้าใจได้ และถูกใช้งานอย่างแพร่หลายแล้ว
- JSON-LD เป็นฟอร์แมตหลักสำหรับเข้ารหัสเมตาดาตา Semantic Web และรองรับหลากหลายประเภท เช่น บล็อกโพสต์ อีเวนต์ และสินค้า
- เมตาดาตา Semantic Web ช่วยให้โซเชียลมีเดียและเสิร์ชเอนจินแสดงตัวอย่างลิงก์และผลการค้นหาที่ดีขึ้น
- การใช้ AI เพื่อดึงเมตาดาตาอัตโนมัติอาจมีค่าใช้จ่ายสูงและไม่แม่นยำ
- มีทางเลือกหลายแบบ เช่น Open Graph Protocol, Microdata และ Twitter Cards
4 ความคิดเห็น
ขอแนะนำบทความนี้สำหรับผู้ที่สงสัยเกี่ยวกับประวัติของ Semantic Web และสถานะของมันในปัจจุบัน
https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…
ผมไม่ได้คิดว่า JSON-LD คือแกนกลางหรือเทคโนโลยีหลักของ Semantic Web แต่ก็เห็นด้วยมากกับคำพูดที่ว่า "Semantic Web แพร่หลายไปอย่างกว้างขวางแล้ว เพียงแค่ไม่มีช่วงเวลาแห่งชัยชนะเท่านั้น"..!
ความเห็นบน Hacker News
ปัญหาของมาตรฐาน Semantic Web
ประสบการณ์จากความพยายามที่ล้มเหลว
การเปรียบเทียบ JSON-LD กับ RSS
ความหมายของ LLM กับ Semantic Web
สถานะปัจจุบันของ Semantic Web
การขาดหายไปของแนวคิดสำคัญ
เมทาดาทาของ PDF
ความสำคัญของ HTML
AI กับเมทาดาทา
JSON-LD กับ SEO