Big Data เผยข้อมูลที่คุณไม่เคยรู้มาก่อน

09-มิ.ย.-17

IT Update

เมื่ออดีต Data Scientist ของ Google พบว่าคำค้นหาที่เกี่ยวข้องกับ “การว่างงาน” กลับไม่ใช่คำว่า “งาน”

สำหรับบทความนี้ เป็นบทความที่ได้มาจากประสบการณ์ตรงของคนที่เคยทำงาน Google เกี่ยวกับเรื่อง Big Data มีประเด็นบางอย่างที่น่าสนใจอย่างที่เราคาดไม่ถึง และได้เห็นมุมมองความคิดที่แตกต่าง เชื่อว่าบทความนี้น่าจะช่วยเปิดโลกทัศน์ให้คนไอทีที่อาจต้องทำงานที่เกี่ยวข้องกับการวิเคราะห์ข้อมูล ซึ่งทางทีมงานเทคสตาร์ขอสรุปข้อมูลที่เป็นประโยชน์จากบทความมาให้อ่านกันง่ายๆ ดังนี้

ณ โกลด์แมน แซคส์ (Goldman Sachs) ซึ่งเป็นสถาบันการเงินเพื่อการลงทุนทั่วโลก (Global Investment Banking) ในรัฐแมนฮัตตันตอนล่าง มีพนักงานมาทำงานตั้งแต่ 7 โมง แม้อยู่ในช่วงที่เช้าตรู่แต่กลับมี “ข้อมูลที่สำคัญ” และมีผลต่อตลาดหุ้นเป็นอย่างมากเข้ามายัง โกลด์แมน แซคส์
 

ข้อมูลที่ถูกเผยแพร่จากสำนักข่าวมักจะถูกแพร่กระจายไปอย่างรวดเร็ว รวมถึงในสถาบันการเงินนับร้อยหรือแม้แต่ที่โกลด์แมนด้วย สำหรับสถาบันการเงินการธนาคาร ความเร็วคือสิ่งสำคัญ ต้องพูดกันในระดับ “มิลลิวินาที” เลยทีเดียว ซึ่งโกลด์แมนและสถาบันทางการเงินแห่งอื่นๆ ยอมลงทุนหลายสิบล้านเหรียญในการใช้สายเคเบิลใยแก้วนำแสง เพื่อที่จะที่ช่วยลดเวลาในการเดินทางของข้อมูลจากรัฐชิคาโก้มายังรัฐนิวเจอร์ซีย์โดยใช้เวลาเพียง 4 มิลลิวินาที คำถามคือ แล้วเจ้า “ข้อมูลสำคัญ” ที่ว่ามันคืออะไรล่ะ คำตอบคือ อัตราการว่างงานรายเดือน ซึ่งมีผลกระทบอย่างมากต่อตลาดหุ้น สถาบันการเงินต่างๆ จึงพยายามทำทุกอย่างอย่างรวดเร็วที่สุด เพื่อที่พวกเขาจะได้วิเคราะห์และปฏิบัติตามนโยบายได้ทันท่วงที 
 

คำถามต่อไปคือ แล้วจะมีวิธีวัดสถิติการว่างงาน (แม้จะคร่าวๆ) ที่เร็วกว่านี้ไหม? แล้วในยุคไฮเทคแบบนี้ที่มีการบันทึกเกี่ยวกับทุกคลิกบนอินเทอร์เน็ต เราจำเป็นต้องรอนานเป็นสัปดาห์ๆ หรือไม่เพื่อจะได้รู้ว่ามีคนกำลังว่างงานอยู่?
 

Jeremy Ginsberg อดีตวิศวกรของ Google สังเกตเห็นว่าข้อมูลด้านสุขภาพมักถูกเผยแพร่จากรัฐบาลอย่างล่าช้าเช่นเดียวกับข้อมูลการว่างงาน ศูนย์ควบคุมและป้องกันโรค (CDC) ของสหรัฐใช้เวลาถึงหนึ่งสัปดาห์กว่าจะเผยแพร่ข้อมูลเกี่ยวกับไข้หวัด Ginsberg คาดว่าคนที่ป่วยด้วยโรคไข้หวัดมีแนวโน้มที่จะทำการค้นหาข้อมูลด้วยคำที่เกี่ยวข้องกับไข้หวัดใหญ่ นั่นหมายถึง คนเหล่านั้นกำลังบอกอาการของตนเองกับ Google ด้วยคำที่ค้นหาอยู่ Ginsberg คิดว่าการค้นหาด้วยคำว่า "flu symptoms" และ "muscle aches" สามารถเป็นตัวบ่งชี้ที่ได้ว่า เชื้อหวัดแพร่ระบาดเร็วแค่ไหน
 

ในขณะเดียวกันวิศวกรของ Google ได้สร้างบริการ Google Correlate เพื่อให้นักวิจัยภายนอกได้ทดลองวิธีการวิเคราะห์ประเภทเดียวกันในสาขาอื่นด้วย ไม่เจาะจงแค่ด้านสุขภาพเพียงอย่างเดียว 
ตัวอย่างการใช้ Google Correlate จาก Hal Varian หัวหน้านักเศรษฐศาสตร์ของ Google สามารถแสดงคำค้นหาที่ใกล้เคียงเกี่ยวกับ “ราคาที่อยู่อาศัย” เมื่อราคาที่อยู่อาศัยกำลังเพิ่มขึ้นชาวอเมริกันมักจะค้นหาโดยใช้ "80/20 mortgage" "new home builder" และ "appreciation rate" แต่เมื่อราคาที่อยู่อาศัยลดลงชาวอเมริกันมักจะค้นหาวลี เช่น "short sale process" "underwater mortgage" และ "mortgage forgiveness debt relief" ดังนั้น จึงสามารถใช้การค้นหาของ Google เกี่ยวกับเรื่องการว่างงานได้เช่นกัน 

 

เมื่อใช้อัตราการว่างงานของสหรัฐฯ ตั้งแต่ปี 2547 จนถึงปี พ.ศ. 2554 ใน Google Correlate คุณคิดว่า คำไหนที่เกี่ยวข้องกับการว่างงานมากที่สุด? คุณอาจจินตนาการว่า "unemployment office" "New jobs" ถึงแม้มีการค้นหาในปริมาณที่สูง แต่ก็ยังไม่ใช่ แต่คำที่ถูกค้นหาสูงที่สุดในช่วงเวลานั้น ที่น่าแปลกใจสุดๆ ก็คือคำว่า "Slutload" เป็นคำที่ถูกค้นหาบ่อยในเว็บไซต์ลามก เว็บโป๊ คุณอาจจะรู้สึกแปลกๆ และน่าอายใช่ไหมล่ะ ก็เพราะคนที่กำลังว่างงานมักจะมีเวลาว่างมาก อยู่ที่บ้านตามลำพังแถมคงรู้สึกเบื่อด้วย ส่วนอีกหนึ่งการค้นหาคือ  "Spider Solitaire" แน่นอนล่ะ ก็พวกเขามีเวลาเล่นเกมน่ะสิ
 

จากตัวอย่างที่ยกมา แสดงให้เห็นถึงพลังของการใช้ Big Data ลองทบทวนใหม่ว่าอะไรเป็นข้อมูลที่เข้าข่ายที่ต้องการ บ่อยครั้งที่ Value ของ Big Data ไม่ใช่ “ขนาดของข้อมูล” แต่เป็นข้อมูลที่สามารถนำเสนอเป็นข้อมูลใหม่ๆ เพื่อใช้ศึกษาหรือข้อมูลที่ไม่เคยได้รับรู้มาก่อน
 

ก่อนที่จะมี Google มีข้อมูลเกี่ยวกับกิจกรรมสันทนาการบางอย่าง เช่น การขายตั๋วภาพยนตร์ เป็นการให้เบาะแสบางอย่างเกี่ยวกับเวลาว่างของผู้คน แต่โอกาสที่จะรู้ว่าการเล่นเกม Solitaire หรือ กำลังดูหนังโป๊ถือเป็นเรื่องที่ใหม่และมีประสิทธิภาพ ในกรณีนี้ ข้อมูลเหล่านี้อาจช่วยให้เราสามารถใช้วัดความเป็นไปของเศรษฐกิจได้ อย่างน้อยก็จนกว่ารัฐบาลจะทำได้รวดเร็วขึ้นกว่าที่เป็นอยู่
 

จะเห็นว่าในเรื่องของ Big Data หรือ Data Science นั้น การนำข้อมูลมาวิเคราะห์อย่างชาญฉลาดและมีประสิทธิภาพ ช่วยทำให้เราได้ค้นพบข้อมูลใหม่ๆ ที่มีประโยชน์เป็นอย่างมาก สำหรับคนไอทีที่ทำงานหรือต้องเกี่ยวข้องกับการวิเคราะห์พวก Big Data คงต้องเอากรณีศึกษาจากบทความนี้ไปลองปรับใช้ดู เพื่อจะได้เกิดไอเดียในการนำข้อมูลมาวิเคราะห์ได้ในอนาคต

 

ที่มา: linkedin.com/


อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

 

เพิ่มเพื่อน

 

 

 

 

บทความที่เกี่ยวข้อง