- โปรเจ็กต์ที่สแครปข้อมูลร้านอาหารทั้งหมดในลอนดอนและสร้างโมเดลแมชชีนเลิร์นนิงเพื่อวิเคราะห์ผลกระทบเชิงโครงสร้างของอัลกอริทึม Google Maps ต่อการอยู่รอดของธุรกิจรายย่อยในเมือง
- อันดับบน Google Maps ไม่ใช่เพียงรายการธรรมดา แต่ทำหน้าที่เป็น 'ผู้สร้างตลาด' ที่จัดระเบียบอุปสงค์อย่างแข็งขันผ่านสัญญาณ relevance, distance, prominence (ความโดดเด่น)
- แสดงให้เห็นโครงสร้างที่ถูกเสริมแรงแบบสะสมโดยจำนวนรีวิว·ความเร็วในการได้รีวิว·การรับรู้แบรนด์·การถูกกล่าวถึงบนเว็บ จนเกิดวงจร การมองเห็นช่วงแรก → อุปสงค์เพิ่ม → รีวิวเพิ่ม → การมองเห็นเพิ่มขึ้นอีก
- โครงสร้างแบบนี้เอื้อประโยชน์ให้ร้านเชนและร้านในย่านศูนย์กลาง ขณะที่ร้านอิสระเปิดใหม่เผชิญกับ ‘ปัญหา cold-start’ ที่แม้แต่จะถูกค้นพบยังทำได้ยากเพราะรีวิวยังน้อย
- เพื่อแยกสิ่งนี้ออกจากกัน จึงสร้างโมเดล ML ที่ทำนายคะแนนที่คาดหมายได้จากเงื่อนไขเชิงโครงสร้างของร้านเพียงอย่างเดียว (counterfactual) แล้วคำนวณส่วนต่างจากคะแนนจริงเป็นค่าคงเหลือ (residual) เพื่อระบุร้านที่อัลกอริทึมประเมินสูงหรือต่ำเกินไป
- ไปไกลกว่านั้นด้วยการรวมร้านอาหารในระดับพื้นที่ แล้ววิเคราะห์ความแข็งแกร่งเชิงโครงสร้างของฮับร้านอาหารด้วย PCA และการทำคลัสเตอร์ เพื่อแสดงให้เห็นว่าแพลตฟอร์มกำลังปรับโฉมระบบนิเวศอาหารของเมืองอย่างไร
Google Maps ไม่ใช่ไดเรกทอรี แต่เป็นผู้สร้างตลาด (Market Maker)
- ต่างจากเรื่องเล่าอย่างเป็นทางการที่ว่า Google Maps เพียงสะท้อนว่า "ผู้คนชอบอะไร" อย่างเฉยๆ ในความเป็นจริงมันจัดระเบียบอุปสงค์ผ่านสัญญาณหลักอย่าง relevance (ความเกี่ยวข้อง), distance (ระยะทาง), prominence (ความโดดเด่น)
- relevance อนุมานจากการจับคู่ข้อความระหว่างคำค้นกับเมตาดาตาของธุรกิจ ส่วน distance เป็นปัจจัยเชิงพื้นที่ล้วนๆ
- prominence คำนวณจากจำนวนรีวิว ความเร็วในการได้รีวิว คะแนนเฉลี่ย การรับรู้แบรนด์ การมองเห็นบนเว็บ ฯลฯ และเป็นจุดที่อิทธิพลทางการเมืองเศรษฐกิจเริ่มทำงาน
- สะท้อนว่าผู้คนโต้ตอบกับสถานที่นั้นบ่อยแค่ไหน พูดถึงมากเพียงใด และรับรู้อยู่แล้วหรือไม่
- กล่าวคือ Google Maps ไม่ได้แค่ ‘สะท้อน’ อุปสงค์ แต่เป็นผู้สร้างตลาด (market maker) ที่จัดระเบียบอุปสงค์ผ่านอัลกอริทึมการจัดอันดับ
โครงสร้างความได้เปรียบสะสมและ Matthew Effect
- การมองเห็นในรายการอันดับเป็นตัวกำหนดจำนวนผู้มาเยือน ผู้มาเยือนกำหนดความเร็วในการสะสมรีวิว และรีวิวเหล่านี้ก็ย้อนกลับไปเป็นสัญญาณ prominence อีกที เกิดเป็นความได้เปรียบสะสม (cumulative advantage)
- คล้ายกับวิธีที่ทุนเติบโตแบบทบต้นในตลาดการเงิน และเป็นรูปแบบที่Matthew Effect ของ Robert Merton ถูกนำมาใช้กับร้านเคบับ
- หลักการแบบ "ผู้ที่มีอยู่แล้วจะได้รับเพิ่มอีก"
- ร้านเชนได้เปรียบจากการรับรู้แบรนด์ข้ามทำเล และธุรกิจในพื้นที่คนสัญจรหนาแน่นก็สะสมรีวิวได้เร็วกว่าแม้คุณภาพจะเท่ากัน จึงไต่ขึ้นในอันดับ prominence
- ธุรกิจอิสระเปิดใหม่ต้องเผชิญกับปัญหา cold-start: ถ้าไม่มีรีวิวก็ถูกค้นพบได้ยาก และถ้าไม่ถูกค้นพบก็ยิ่งสะสมรีวิวไม่ได้
- สิ่งที่ดูเหมือนเป็นการเลือกของผู้บริโภคอย่างเป็นกลาง แท้จริงแล้วควรถูกมองว่าเป็นการออกแบบตลาดที่มีอัลกอริทึมเป็นตัวกลาง
แพลตฟอร์มในฐานะผู้สร้างตลาด
- ในเศรษฐศาสตร์ ผู้สร้างตลาด (market maker) ไม่ได้เพียงสะท้อนอุปสงค์และอุปทาน แต่เป็นตัวกลางที่กำหนดสภาพคล่อง การจับคู่ และการค้นพบราคาอย่างแข็งขัน
- แพลตฟอร์มอย่าง Google Maps ทำหน้าที่คล้ายกันกับบริการท้องถิ่น โดยควบคุมการมองเห็นแทนราคา
- ในศัพท์เศรษฐศาสตร์ดิจิทัล อัลกอริทึมจัดอันดับทำหน้าที่เป็นattention allocator (ตัวจัดสรรความสนใจ) ชี้นำอุปสงค์ไปยังธุรกิจบางราย และดึงมันออกจากบางราย
เมืองเชิงสวนทางข้อเท็จจริง (counterfactual) ที่สร้างด้วยแมชชีนเลิร์นนิง
- หาก Google Maps เป็นผู้สร้างตลาดของอุปสงค์ในเมือง คำถามสำคัญคือ หากไม่มีชั้นการขยายผลนี้ เมืองจะมีหน้าตาอย่างไร
- จึงสร้างโมเดลแมชชีนเลิร์นนิงเพื่อแยกผลงานที่แท้จริงของร้านออกจากผลของการมองเห็นบนแพลตฟอร์ม
- ใช้ HistGradientBoostingRegressor (gradient-boosted decision tree ของ scikit-learn)
- เหมาะกับข้อมูลตารางแบบผสมที่มีขนาดใหญ่และยุ่งเหยิง และจับผลของปฏิสัมพันธ์ได้โดยไม่ต้องกำหนดเอง
- คุณลักษณะของโมเดล (features):
- จำนวนรีวิว (แปลง log เพื่อสะท้อนผลตอบแทนด้านความสนใจที่ลดลง)
- ประเภทอาหาร ความเป็นเชน/อิสระ ระดับราคา ประเภทธุรกิจ (ร้านอาหาร/คาเฟ่/สั่งกลับบ้าน/บาร์)
- ตำแหน่งในเมืองผ่านกริดเชิงพื้นที่
สร้างโมเดลแยกสำหรับการจำแนกประเภทอาหาร
- พบว่าการจำแนกประเภทอาหารของ Google Maps มีปัญหาทั้งความไม่แม่นยำและไม่สอดคล้องกัน
- หลายแห่งถูกติดป้ายอย่างกำกวมว่า "restaurant", "cafe", "meal takeaway" เป็นต้น
- จึงสร้างโมเดลจำแนกแยกต่างหากเพื่อทำนายประเภทอาหารจากชื่อร้าน ภาษาในเมนู และข้อความรีวิว
- ตัวกรองประเภทอาหารในแดชบอร์ดจึงอิงจากผลลัพธ์ของแมชชีนเลิร์นนิง ไม่ใช่แท็กของ Google
- หากจำแนกประเภทอาหารผิด การวิเคราะห์ความหลากหลาย การทำคลัสเตอร์ และความสัมพันธ์การแข่งขันระยะไกลก็จะบิดเบือนไปด้วย
การวัดการประเมินต่ำของอัลกอริทึมด้วยค่าคงเหลือของคะแนน (rating residual)
- ทุกคุณลักษณะผ่าน pipeline การเตรียมข้อมูลมาตรฐานก่อน (เช่น การจัดการค่าว่าง การเข้ารหัส ฯลฯ)
- โมเดลเรียนรู้เพียงการจับคู่ระหว่างคุณลักษณะที่สังเกตได้บนแพลตฟอร์มกับคะแนนรีวิว
- สำหรับแต่ละร้านอาหาร โมเดลจะสร้างคะแนนคาดหมายเชิงสวนทางข้อเท็จจริง (counterfactual expected rating)
- ส่วนต่างระหว่างคะแนนจริงกับคะแนนที่ทำนายได้คือrating residual (ค่าคงเหลือของคะแนน)
- residual เป็นบวก: ผลงานจริงดีกว่าค่าพื้นฐานของแพลตฟอร์ม
- residual เป็นลบ: ผลงานต่ำกว่าที่อัลกอริทึมมักให้รางวัล
- แม้จะไม่ใช่มาตรวัดคุณภาพอาหารที่สมบูรณ์แบบ แต่ก็เป็นตัวชี้วัดที่ทรงพลังสำหรับการวัดการกำหนดมูลค่าผิดโดยอัลกอริทึม (algorithmic mispricing)
- จับจุดที่คุณค่าทางสังคมและทางอาหารเบี่ยงออกจากสิ่งที่แพลตฟอร์มขยายผลเชิงโครงสร้าง
ข้อจำกัดของการมองเห็นจากโฆษณาแบบชำระเงิน
- ร้านอาหารบางแห่งจ่ายเงินสำหรับ promoted pins หรือโฆษณาค้นหาแบบ local
- การมองเห็นแบบจ่ายเงินไม่เปิดเผยต่อสาธารณะ จึงประเมินไม่ได้
- เป็นสัญญาณว่าพลังของแพลตฟอร์มยิ่งทึบแสงเพียงใด
- ค่าคงเหลือของคะแนนอาจสะท้อนการใช้จ่ายโฆษณาที่สังเกตไม่ได้อยู่บางส่วน
แนะนำ London Food Dashboard
- สร้าง**London food dashboard** เพื่อสรุปผลการวิเคราะห์
- ความสามารถปัจจุบัน: ค้นหาตามชื่อ, ตัวกรองร้านอร่อยที่ถูกประเมินต่ำ (ระบุโดยอัลกอริทึมแมชชีนเลิร์นนิง), ประเภทอาหาร, เขตปกครอง, ระดับราคา, คะแนนขั้นต่ำ, จำนวนรีวิว
- แม้ยังเป็นเวอร์ชันเบตา แต่ทำหน้าที่เป็นกล้องจุลทรรศน์สำหรับส่องดูเศรษฐกิจอาหารเชิงอัลกอริทึมของลอนดอน
- ที่อยู่สำหรับเข้าใช้งาน: laurenleek.eu/food-map
- ตัวกรอง "underrated gems" เป็นตัวอย่างการใช้งาน residual จากแมชชีนเลิร์นนิง
- ฟองที่ใหญ่กว่าและเข้มกว่าจะแสดงสถานที่ที่อัลกอริทึมประเมินต่ำเกินไป
จากร้านเดี่ยวสู่ย่านเพื่อนบ้านเชิงอัลกอริทึม
- ร้านอาหารไม่ได้ล้มเหลวอย่างโดดเดี่ยว แต่ล้มเหลวภายในระบบนิเวศ
- เพื่อวิเคราะห์สิ่งที่เกิดขึ้นเมื่อพลวัตของแพลตฟอร์มขยายจากระดับร้านเดี่ยวไปสู่ระบบนิเวศอาหารของทั้งย่าน จึงเพิ่มชั้นการสร้างแบบจำลองที่สอง
- รวมร้านอาหารลงในเซลล์เชิงพื้นที่ขนาดเล็ก (ใช้หกเหลี่ยมบนแผนที่ ซึ่งลด edge effect ได้ดีกว่าสี่เหลี่ยม)
- คำนวณคุณลักษณะสรุปของแต่ละพื้นที่: ความหนาแน่นร้านอาหาร คะแนนเฉลี่ย residual เฉลี่ย จำนวนรีวิวรวม สัดส่วนร้านเชน cuisine entropy และระดับราคา
- ปรับมาตรฐานคุณลักษณะแล้วใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) เพื่อบีบอัด "ความแข็งแกร่งของระบบนิเวศร้านอาหาร" ทั้งหมดให้เป็น hub score ต่อเนื่องหนึ่งค่า
- จากนั้นใช้ K-means clustering บนพื้นที่คุณลักษณะเดียวกัน เพื่อจัดพื้นที่ออกเป็นโครงสร้าง 4 แบบ:
- ฮับแบบ elite, strong, everyday, weak
ผลการวิเคราะห์ฮับ
- แพตเทิร์นดูคุ้นเคย: ใจกลางลอนดอนยังคงครองความเด่น
- สิ่งสำคัญไม่ใช่ตำแหน่งของฮับ แต่คือประเภทของฮับ
- ระบุ5 ฮับร้านอาหารที่แข็งแกร่งเชิงโครงสร้างที่สุดในลอนดอนจาก hub score ทั้งหมด ไม่ใช่จากคะแนนรีวิวดิบ
- เป็นสถานที่ที่ความหนาแน่น ความสนใจจากอัลกอริทึม การอยู่รอดของร้านอิสระ และกำลังซื้อของผู้บริโภค เรียงตัวสอดคล้องกันทั้งหมด
- มีการติดป้ายบนแผนที่
- เพื่อหลีกเลี่ยงการจุดชนวนความขัดแย้งระหว่างย่าน จึงไม่ระบุลำดับอย่างชัดเจนในบทความ
ความหนาแน่นของประเภทอาหารและความหลากหลายทางอาหารของลอนดอน
- เมื่อวางแผงความหนาแน่นของประเภทอาหารซ้อนบนการวิเคราะห์ฮับ ผลลัพธ์จะยิ่งชัดเจนขึ้น
- ความหลากหลายทางอาหารของลอนดอนไม่ได้กระจายอย่างเท่าเทียมทั่วทั้งเศรษฐกิจแพลตฟอร์ม
- อาหารของผู้อพยพกระจุกตัวอย่างชัดเจนในพื้นที่เมืองที่ความแข็งแกร่งของการมองเห็นเชิงอัลกอริทึมต่ำกว่า
- Italian, Indian, Turkish, Chinese, Thai, British, Japanese, French, American, fish-and-chips ต่างสะท้อนประวัติการตั้งถิ่นฐาน เครือข่ายแรงงาน รูปแบบค้าปลีก และความสัมพันธ์กับทุนและค่าเช่าที่แตกต่างกัน
- อาหารบางประเภทก่อรูปเป็นแนวระเบียงยาวต่อเนื่อง ขณะที่บางประเภทปรากฏเป็นคลัสเตอร์แบบขาดช่วงที่เชื่อมโยงกับย่านการค้าหรือชนชั้นรายได้เฉพาะ
- ความหลากหลายทางอาหารไม่ใช่แค่เรื่องรสนิยม: มันเชื่อมโยงกับว่าครอบครัวไปตั้งถิ่นฐานที่ไหน ย่านการค้าใดมีราคาถูกพอนานพอให้คนรุ่นที่สองเปิดธุรกิจได้ และส่วนใดของเมืองเกิดการย้ายถิ่นก่อนที่ระบบนิเวศการทำอาหารจะเติบโตเต็มที่
นัยเชิงนโยบาย
- โปรเจ็กต์นี้เริ่มจากปัญหาการค้นหา แต่ลงเอยที่คำถามที่ใหญ่กว่า
- ผลลัพธ์ที่สำคัญที่สุดไม่ใช่ว่าย่านไหนอยู่อันดับหนึ่ง แต่คือการตระหนักว่าแพลตฟอร์มกำลังจัดโครงสร้างการอยู่รอดในตลาดเมืองประจำวันอย่างเงียบๆ
- วงการร้านอาหารในลอนดอนไม่ได้ถูกจัดระเบียบด้วยรสนิยมเพียงอย่างเดียวอีกต่อไป
- แต่ถูกจัดระเบียบด้วยการมองเห็นที่เพิ่มขึ้นแบบทบต้น ค่าเช่าที่สูงขึ้นเมื่อมีการค้นพบ และอัลกอริทึมที่จัดสรรความสนใจก่อนที่ผู้บริโภคจะมาถึงเสียอีก
- สิ่งที่ดูเหมือนเป็น "การเลือก" กำลังกลายเป็นผลปลายน้ำของระบบจัดอันดับมากขึ้นเรื่อยๆ
ความโปร่งใสและความจำเป็นของการตรวจสอบอัลกอริทึม
- หากการถูกค้นพบกำลังกำหนดการอยู่รอดของธุรกิจรายย่อย การแข่งขัน ความเป็นธรรม และการฟื้นฟูเมืองก็ไม่อาจมองข้ามระบบจัดอันดับของแพลตฟอร์มได้อีกต่อไป
- ต่อให้หน่วยงานท้องถิ่นฟื้นฟูถนนหรือผ่อนคลายการออกใบอนุญาต การมองไม่เห็นเชิงอัลกอริทึมก็ยังทำให้สถานที่หนึ่งถูกโดดเดี่ยวทางเศรษฐกิจได้
- ความโปร่งใสของแพลตฟอร์มและความสามารถในการตรวจสอบไม่ใช่การถกเถียงทางเทคนิคเฉพาะกลุ่มอีกแล้ว แต่กำลังกลายเป็นเครื่องมือนโยบายเศรษฐกิจท้องถิ่นอย่างเงียบๆ
- อย่างน้อยที่สุด อัลกอริทึมการจัดอันดับที่มีผลลัพธ์ทางเศรษฐกิจระดับนี้ควรต้องตรวจสอบได้
- เราตรวจสอบตลาดการเงินอย่างไร ก็ควรตรวจสอบตลาดความสนใจ (attention market) เช่นกัน
- ควรจับตาดูขนาดของอำนาจที่ Google Maps มีในฐานะแอปนำทาง
2 ความคิดเห็น
ผมคิดว่าการที่เจ้าของร้านที่กระตือรือร้นเข้ามาแทรกแซงรีวิวต่ออีก ยิ่งสร้างความไม่มีประสิทธิภาพอย่างมาก เป็นปัญหาที่ยากจริง ๆ เมื่อก่อนรีวิวบน Google Maps เป็นอะไรที่เชื่อถือแล้วไปตามได้ แต่ตอนนี้เหมือนว่าส่วนการค้นหาร้านใหม่ ๆ พังไปหมดแล้ว
Naver Map กลายเป็นบริการที่เชื่อถือได้ยากมากไปแล้ว ส่วน Kakao Map ก็ยังพอใช้ได้อยู่บ้าง แต่ถึงอย่างนั้นก็ยังมีพวกคอมเมนต์รับจ้างอยู่ ทำให้ในพื้นที่แบบนี้ยิ่งเป็นบริการใหญ่เท่าไร ความน่าเชื่อถือก็ยิ่งลดลงครับ