3 กรกฎาคม 2556

[135] เราได้อะไรจาก "ค่าเบี่ยงเบนมาตรฐาน" (standard deviation)

ใครที่เคยเรียนวิชาสถิติมาจะพบว่าในหลักสูตรจะสอนเน้นให้จำสูตรแล้วเอาไปสอบ โดยคำถามในข้อสอบส่วนใหญ่คือเลือกสูตรที่จำมาให้ถูกต้องแล้วคำนวณให้ถูก ที่สำคัญคือไม่ได้เน้นการนำเอามาใช้งานจริง ทำให้คืนครูไปหมดเกลี้ยง ผมเองก็เป็นหนึ่งในนั้นที่คืนไปหมดแล้ว แต่ทุกวันนี้ทำงานกับ Excel ในเรื่องการวิเคราะห์ข้อมูล ซึ่ง Excel มีฟังก์ชั่นทางสถิติรองรับครบถ้วน แต่ปัญหาคือ ถ้าเราไม่เข้าใจความหมายและจุดประสงค์ของสูตรทางสถิติก็คงไม่มีวันที่จะเอามาใช้งานได้ตรงตามความต้องการ

ค่าเฉลี่ย (average)
เริ่มต้นด้วยการคำนวณสถิติที่น่าจะคุ้นเคยกันดี คือ "ค่าเฉลี่ย" เรื่องนี้น่าจะเข้าใจง่ายสุด (เลยยังไม่ได้คืนครู) มันคือการคำนวณโดยเอาตัวเลขของข้อมูลมาบวกกันทุกตัวแล้วหารด้วยจำนวนข้อมูล ขอแนบสมการให้ดูเท่ๆ กันหน่อย
สมการสำหรับหาค่าเฉลี่ย
ตัวอย่าง อุณหภูมิวันจันทร์ - ศุกร์ คือ 30.0 31.5 30.5 29.0 29.5 30.0 และ 30.5 ตามลำดับ ถ้านำมาคิดเป็นอุณหภูมิเฉลี่ยของสัปดาห์นี้ = (30.0+31.5+30.5+29.0+29.5+30.0+30.5) / 7 = 30.14 มาลองทำทำใน Excel กันดู
หาค่าเฉลี่ยของกลุ่มข้อมูลที่สนใจด้วยฟังก์ชั่น AVERAGE
ค่าเฉลี่ยที่คำนวณได้ จะเป็นค่ากลางหรือค่าที่เรานำมาใช้แทนกลุ่มข้อมูล เป็นตัวแทนของข้อมูลที่น่าจะดีที่สุด แต่ในชีวิตจริงข้อมูลไม่ได้มีแค่หลักหน่วย แต่อาจมีเป็นร้อยจนหลักแสนหลักล้าน การใช้ค่าเฉลี่ยเมื่อข้อมูลมีจำนวนมาก ๆ อาจไม่ใช่ทางออกที่ดีที่สุด เพราะข้อมูลยิ่งมาก การกระจายตัวของข้อมูลก็จะสูงขึ้นตาม

การกระจายตัวของข้อมูล
ในชีวิตจริงเราจะพบข้อมูลที่ได้มักจะมีการกระจายตัวที่ไม่เท่ากันหรือไม่ใกล้เคียงกันเสมอไป จากตัวอย่างที่แล้ว ถ้าเกิดพายุเข้าอากาศแปรปวน จะเกิดอะไรขึ้นมาลองดูกราฟกัน
เปรียบเทียบอากาศปกติ และ แปรปรวน
จากข้อมูลจะเห็นว่าแม้ข้อมูลได้ค่าเฉลี่ยเท่ากัน แต่แค่มองด้วยตาเปล่าก็จะเห็นว่าข้อมูลด้านล่างมีความแปรปรวนมากและค่าเฉลี่ยที่ได้มาไม่น่าจะนำมาแทนชุดข้อมูลดังกล่าวได้ คราวนี้ปัญหาคือถ้าข้อมูลมีจำนวนมาก ๆ การดูด้วยสายตาคงไม่เพียงพอจะตัดสินได้ว่าข้อมูลมันปกติหรือไม่ปกติ
ข้อมูลในชิวิตจริงแค่นี้มันจิบ ๆ แบบนี้ดูไม่ออกแน่ว่ามันแปรปรวนหรือเปล่า

ค่าเบี่ยงเบนมาตรฐาน  (standard deviation หรือ SD)
ค่าเบี่ยงเบนมาตรฐาน หรือ SD คิดค้นโดย ฟรานซิส กาลตัน (Francis Galton) ในช่วงปลายคริสต์ทศวรรษ 1860 จุดประสงค์ของการคำนวณค่าเบียงเบนมาตรฐานก็คือหาค่าการกระจายตัวของข้อมูลที่ออกหากจากค่าเฉลี่ยกลางของข้อมูล ค่ายิ่งมากแสดงว่ามีการแปรปรวนหรือการกระจายของข้อมูลสูง เพื่อให้เข้าใจยิ่งขึ้นเรามาลองดูภาพกัน
ค่าเบี่ยงเบนมาตรฐาน (SD) คือ คือเอาระยะเส้นสีเหลืองมารวมกันหาค่าเฉลี่ย
จากภาพกราฟจะเห็นว่ายิ่งผลรวมความยาวของเส้นสีเหลืองยิ่งมาก ค่า SD ก็จะยิ่งสูงขึ้น ในทางสถิติหากมีการเก็บข้อมูลมาแล้วค่า SD เกินค่าที่รับได้จะถือว่าข้อมูลกระจายตัวเกินไป (อันนี้แล้วแต่งานและเงื่อนไข) ซึ่งก็ต้องหาเหตุผลต่อว่าทำไมถึงเป็นอย่างนั้น จากตัวอย่างที่ยกมาเกิดจากอากาศแปรปรวนเลยทำให้ค่า SD กระฉูดนั้นเอง เกือบลืมแปะสูตรซะหน่อย
สมการสำหรับหาค่า SD
ตัวอย่างการวิเคราะห์ แม่ไก่ออกไข่วันละฟอง
ในฟาร์มไก่ไข่ มีไก่อยู่ 1,000 ตัว โดยแบ่งอยู่ในโรงเลี้ยงจำนวน 4 โรง โดยค่าเฉลี่ยที่ควรจะเป็นไก่จะออกไข่ประมาณ 80% (มีพัก 20%) ฟาร์มไก่มีแรงงานคนจำกัดไม่สามารถนับไข่ที่ออกจากแม่ไก่แบบตัวต่อตัวได้

เมื่อเลี้ยงไก่เพื่อขายไข่ หากไก่กินอาหารแต่ออกไข่น้อยกว่าที่ควรจะเป็นก็จะขาดทุน ดังนั้นเราต้องหาให้ได้ว่ามีไก่ตัวไหนอู้ กินแล้วไม่ไข่บ้างหรือเปล่า
รายงานไข่ที่เก็บได้ใน 1 เดือน จำนวน 30 วัน
จากตารางนี้สามารถบอกอะไรได้บ้าง
  • ค่าเฉลี่ย (AVERAGE) โรงที่ 1 2 และ 4 ออกไข่เฉลี่ยต่ำกว่า 80% 
  • โรง 2 มีปัญหาเยอะสุด ค่าเฉลี่ยต่ำ แถมมีไก่อู้เยอะสุด
  • ค่าเฉลี่ยโรง 1 และ 4 แม้จะมีค่าเฉลี่ยใกล้เคียงกัน แต่ค่า SD ต่างกันมาก
    แสดงว่าในโรง 1 ไก่ออกไข่สม่ำเสมอกว่าโรง 4 (โรง 4 น่าจะมีไก่อู้มากกว่า)

เพื่อให้เห็นภาพลองมาดูกราฟของโรง 1 และ 4 กัน
เปรียบเทียบจำนวนไข่ที่เก็บได้ในแต่ละวันของโรง 1 และ 4
การแก้ไขปัญหาของโรง 4 คือ ต้องแยกไก่ขยันกับไก่อู้ออกจากกัน ซึ่งวิธีการอาจต้องให้คนงานเก็บข้อมูลไข่แยกเป็นโซน แล้วนำแต่ละโซนมาหาดูว่าโซนไหนตกค่าเฉลี่ยหรือค่า SD เยอะ จึงค่อยดูเป็นรายตัวในโซนนั้น ๆ


ตัวอย่างการวิเคราะห์ ผลการทำข้อสอบ
อาจารย์วิชาภาษาอังกฤษได้ทดสอบเด็ก 2 ห้อง เพื่อวัดผล ปรากฎว่าค่าเฉลี่ยที่ได้ 2 ห้องใกล้เคียงกัน แต่ค่า SD ต่างกัน
ผลการทดสอบของเด็กทั้ง 10 คน
จากข้อมูลจะเห็นได้ว่าแม้คะแนนเฉลี่ยจะใกล้เคียงกัน แต่ค่า SD ต่างกันมาก แสดงให้เห็นว่าห้อง B มีเด็กเก่งและไม่เก่ง ส่วนห้อง A จะเก่งใกล้เคียงกันมากกว่า เมื่อวิเคราะห์ผลที่ได้ จะทำให้เห็นว่าถ้าจะสอนห้อง B จะใช้วิธีสอนเหมือนห้อง A ไม่ได้ ต้องแบ่งกลุ่มเด็กอ่อนในห้อง B ออกมาสอนเพิ่มเติมเป็นต้น


ปล.ทุกวันนี้ลองกลับไปดูแบบเรียนสถิติก็ยังเหมือนเดิม สอนแบบเดิม ๆ ถ้าเปลี่ยนแปลงให้เหมาะสมกับโลกแห่งความเป็นจริงได้จะดีมากครับ ไม่มีใครมานั่งบวกเลขหารเลขตามสมการกันหรอก เพราะชีวิตจริงมันมีข้อมูลเป็นหลักพันหลักหมื่น น่าจะสอนวิเคราะห์และใช้เครื่องมือให้เก่ง ๆ น่าจะเข้าท่าและมีประสิทธิภาพมากกว่าด้วย (บ่นไปงั้นแหละ งึมๆ)

เกี่ยวกับเจ้าของบล๊อก

รูปภาพของฉัน

เป็นโปรแกรมเมอร์ที่ฝันว่าจะได้นอนเกาพุงไปวัน ๆ จนพุงลดกลายเป็นเอว ได้เป็นบุคคลที่มีความสุขที่สุดในโลกจนคนอื่น ๆ อิจฉา