เมื่อคุณพบว่าตัวเลขส่วนใหญ่ในโลกนี้ขึ้นต้นด้วยเลขหนึ่ง

Pat Vatiwutipong

จินตนาการว่าคุณกำลังสอบวิชาสังคมสุดหินอยู่ แล้วเจอคำถามข้อหนึ่งถามว่า

ประเทศกัมพูชามีประชากรเท่าไร?

  • 1. 9,682,088
  • 2. 16,482,646
  • 3. 25,312,993
  • 4. 32,933,835

สมมุติว่าคุณไม่มีไอเดียเลยจริง ๆ ไม่รู้ด้วยซ้ำว่ามันควรจะมีค่าประมาณเท่าไร ทางเดียวที่พอจะทำได้คือเดาสุ่ม คำถามก็คือ คุณควรสุ่มข้อไหนดีถึงจะมีโอกาสตอบถูกมากที่สุด ถ้าคุณพอจะเคยเรียนคณิตศาสตร์มาบ้าง คุณก็น่าจะตอบได้ทันทีว่า ก็สุ่ม ๆ ไปเถอะ ข้อไหนก็มีโอกาสถูก 25% เท่า ๆ กันหมดนั่นแหละ

ซึ่งเป็นความคิดที่ … ผิด ผิดถนัดเลย เพราะถ้าไปดูข้อมูลจริง ๆ ของประเทศทั้งโลก เราจะพบว่าจำนวนประชากรของประเทศส่วนใหญ่นั้นขึ้นต้นด้วยเลข 1 เยอะถึงเกือบ 30% เลย ดังนั้นถ้าต้องเดาจริง ๆ การเดาตัวเลือกที่ 2. นั่นคือตอบว่า 16,482,646 ก็น่าจะเป็นไอเดียที่ดีที่สุด ซึ่งคุณก็จะบอกว่า โห แล้วใครมันจะไปรู้ล่ะว่าจำนวนประชากรของประเทศส่วนใหญ่ในโลกนี้ขึ้นด้วยเลขอะไร

แล้วถ้าผมจะบอกว่าไม่ใช่แค่จำนวนประชากรของแต่ละประเทศ แต่ตัวเลขต่าง ๆ ส่วนใหญ่ในโลกนี้ขึ้นต้นด้วยเลข 1 กันทั้งนั้นล่ะ คุณจะว่ายังไง

การกระจายตัวของเลขขึ้นต้น

เพื่อความเข้าใจที่ตรงกัน เลขขึ้นต้น หรือเลขหลักแรก ที่เรากำลังพูดถึงกันอยู่ตอนนี้คือตัวเลขหลักซ้ายสุดที่ปรากฎในตัวเลข เช่นเลขขึ้นต้นของ 18,483 คือ 1 และของ 4,387 คือ 4 ไม่สำคัญว่ามันจะอยู่ในหลักสิบร้อยพันหรืออะไร ขอให้มาเป็นหลักแรก

จากข้อมูลของ worldometers.info พบว่าเมื่อนำจำนวนประชากรของ 233 ประเทศทั่วโลกมานับดูเลยว่าขึ้นต้นด้วยเลข 1 กี่ประเทศ ขึ้นต้นด้วยเลข 2 กี่ประเทศ ไล่ไปแบบนี้ แล้ววาดเป็นกราฟออกมา และนี่คือกราฟที่ได้

จะเห็นว่ามีจำนวนประเทศที่มีจำนวนประชากรขึ้นต้นด้วยเลข 1 มากที่สุดจริง ๆ ด้วย แล้วก็ค่อย ๆ น้อยลงลดหลั่นกันลงไป

ซึ่งเมื่อลองทำการทดลองแบบเดียวกันกับข้อมูลอย่างอื่นดูบ้าง อย่างเช่นข้อมูลระยะทางจากโลกไปยังดาวดวงต่าง ๆ ที่สว่างที่สุด 300 อันดับแรกบนท้องฟ้า (กราฟแรก) ข้อมูลตัวเลขรายจ่ายจำนวน 190,379 รายการของรัฐบาลสหราชอาณาจักรในช่วงเดือนพฤษภาคมถึงกันยายนปี 2010 (กราฟที่ 2) และข้อมูลจำนวนสิ่งพิมพ์ในห้องสมุดจำนวน 9,241 แห่งในประเทศสหรัฐอเมริกา (กราฟที่ 3)

หลอนอยู่นะ คือมันไม่ใช่แค่ว่าทุกอันขึ้นต้นด้วยเลข 1 เยอะที่สุดเหมือนกันแล้ว แต่มันอยู่ที่ราว 30% เหมือนกันด้วย ยิ่งไปกว่านั้นคือ จำนวนข้อมูลที่ขึ้นต้นด้วยเลขหลักอื่น ๆ ก็ยังลดหลั่นกันลงมาด้วยอัตราส่วนคล้าย ๆ กันด้วยนี่สิ

ข้อมูลสี่ชุดที่ไม่มีความเกี่ยวข้องอะไรกันเลยสักนิด ไม่มีความคล้ายกันสักอย่าง ปริมาณก็คนละปริมาณ หน่วยก็คนละหน่วย บางชุดเป็นตัวเลขแค่ไม่กี่พัน ในขณะที่บางข้อมูลเป็นเลขหลักล้าน ๆ แต่กลับมีการกระจายของตัวเลขที่ขึ้นต้นออกมาเหมือนกันขนาดนี้ได้ยังไง

กฎของเบนฟอร์ด

การทดลองนี้ถูกทำขึ้นครั้งแรกเมื่อปี 1983 โดยวิศวกรไฟฟ้าชาวอเมริกันคนหนึ่งที่ชื่อว่า แฟรงค์ เบนฟอร์ด (Frank Benford) ในตอนนั้นเขาทำการทดลองนี้กับข้อมูล 20 ชุดที่ไม่มีความเกี่ยวข้องเลยแล้วได้ผลออกมาในลักษณะเดียวกับที่เราเพิ่งทำไป เขาได้สรุปออกมาเป็นกฎ ที่ต่อมาถูกเรียกว่ากฎของเบนฟอร์ด ว่าการกระจายของเลขหลักแรกของข้อมูลใด ๆ ในโลกนี้นั้น “น่าจะ” เป็นไปตามอัตราส่วนดังกราฟต่อนี้

หรือพูดให้ดูเป็นคณิตศาสตร์หน่อยก็คือเป็นไปตามสูตร $p(d)=log(1+\frac{1}{d})$ สำหรับ $d=1,…,9$

แน่นอนว่าหลังจากเบนฟอร์ดตีพิมพ์บทความเรื่องนี้ออกมา ก็มีคนทดลองเอาข้อมูลตัวเลขต่าง ๆ มากมายมาทดลองหาการกระจายของเลขขึ้นต้นว่าสอดคล้อง (หรือใกล้เคียง) กับกฎของเบนฟอร์ดหรือไม่ บางอันก็สอดคล้องอย่างดี บางอันก็ไม่ โดยข้อมูลที่สอดคล้องกฎของเบนฟอร์ดเป็นอย่างนั้นจะมีจุดร่วมกันบางประการ คือต้องเป็นข้อมูลที่มีการกระจายตัวอยู่ในหลาย ๆ หลักมากพอ ไม่ใช่ข้อมูลจำพวกส่วนสูงหรือน้ำหนักของคนที่กระจุกตัวกันอยู่ในหลักเดียว และต้องเป็นตัวเลขที่มาจากธรรมชาติ ไม่ใช่ข้อมูลที่เป็นลำดับหรือถูกกำหนดขึ้นมาด้วยกฎเกณฑ์บางอย่าง เช่นพวรหัสนักศึกษา รหัสไปรษณีย์ เบอร์โทรศัพท์ หรือรหัสผ่านเอทีเอ็มอะไรทำนองนั้น

ข้อสังเกตที่น่าสนใจอย่างหนึ่งเกี่ยวกับกฎของเบนฟอร์ดก็คือ กฎนี้นั้นจริงโดยไม่ขึ้นอยู่กับหน่วย เช่นหากเราเก็บข้อมูลความสูงของประชากรมาทดลอง หากข้อมูลชุดนี้สอดคล้องกับกฎของเบนฟอร์ดแล้ว ไม่ว่าจะเก็บมาในหน่วยเซนติเมตร หน่วยฟุต หรือหน่วยวัดแบบไหนก็ตาม มันก็จะยังสอดคล้องอยู่ หมายความว่าการกระจายของเลขหลักแรกก็จะเป็นกราฟหน้าตาเหมือนเดิมอยู่ดี ใครที่นึกตามไม่ทันว่าเรื่องนี้มันน่าตื่นเต้นยังไง ลองคิดตามว่า 1 ฟุตมีค่าประมาณ 30 เซนติเมตรนะ ดังนั้นหากเดิมเราเก็บข้อมูลมาได้ 12 ฟุต ซึ่งขึ้นต้นด้วย 1 เมื่อแปลงเป็นเซนติเมตรจะกลายเป็นประมาณ 360 ซึ่งขึ้นต้นด้วยไปแล้ว 3 นะ ตามสามัญสำนึก รูปการกระจายตัวของเลขขึ้นต้นมันก็น่าจะเปลี่ยนไปรึเปล่า ซึ่งความจริงคือไม่เปลี่ยน เราสามารถพิสูจน์ได้ว่า ถ้าเรามีข้อมูลที่สอดคล้องกฎของเบนฟอร์ดอยู่แล้ว ไม่ว่าเราจะแปลงหน่วยของข้อมูลนั้นไปยังไง รูปกราฟของมันจะยังคงออกมาตามกฎของเบนฟอร์ดเหมือนเดิม

แล้วเรื่องนี้มันน่าสนใจยังไง

ในทางสถิติ เราเชื่อว่าข้อมูลแต่ละอย่างนั้นมีรูปแบบที่ต่างกันออกไป ตามแต่ธรรมชาติของมัน แม้ว่าในบางครั้งเราจะสามารถสร้างกฎหลวม ๆ ขึ้นมาเพื่ออธิบายจุดร่วมของข้อมูลที่คล้ายกัน เช่นระยะเวลาที่รอต่อคิวกด ATM กับระยะเวลาที่ใช้รอรถเมล์ ที่อาจจะไม่ได้มีรูปแบบเหมือนกันซะทีเดียว แต่ความที่มันเป็นระยะเวลาการรอเหมือนกัน รูปแบบของข้อมูลสองชุดนี้ก็อาจจะคล้ายกันในบางแง่ แต่เราคงไม่หวังว่าข้อมูลที่ดูต่างกันคนละโยชน์อย่างจำนวนประชากรของแต่ละประเทศในโลก ข้อมูลระยะห่างจากดวงดาว กับข้อมูลรายจ่ายของรัฐบาลอังกฤษ จะมามีรูปแบบบางอย่างที่คล้ายกันได้ขนาดนี้

การค้นพบนี้ของเบนฟอร์ดจึงกำลังบอกเราว่า อาจจะมีจุดร่วมบางอย่างที่เราไม่รู้ซ่อนอยู่เบื้องหลังข้อมูลต่าง ๆ หรือพูดให้ดูใหญ่โตหน่อยก็คือ จริง ๆ แล้วมันอาจจะมีกฎหนึ่งเดียวบางอย่างที่สามารถใช้อธิบายข้อมูลทั้งโลกนี้ก็ได้

คำถามก็คือ แล้วทำไมข้อมูลต่าง ๆ ในโลกนี้มันถึงสอดคล้องกฎของเบนฟอร์ดได้

ซึ่งคำตอบตอนนี้ก็คือ ยังไม่มีใครรู้เหมือนกัน เรื่องนี้ยังคงเป็นปริศนาที่ยังไม่มีใครอธิบายได้ มีความพยายามจะอธิบายด้วยทฤษฏีทางความน่าจะเป็นและสถิติหลายอย่าง แต่ก็ยังไม่มีอันไหนที่สามารถฟันธงลงไปตรง ๆ ได้เลยว่ามันเป็นเพราะอะไรกันแน่ มีเพียงหลักฐานคือชุดข้อมูลนั่นโน่นนี่ที่สอดคล้องกฎของเบนฟอร์ดนี้กันเต็มไปหมด

แต่แม้ว่าจะยังหาคำอธิบายไม่ได้ ก็มีการนำกฎของเบนฟอร์ดนี้ไปใช้งานกันอย่างแพร่หลาย หนึ่งในตัวอย่างที่โด่งดังคือการจับทุจริตการฉ้อโกงของบัญชีของบริษัทแห่งหนึ่งในสหรัฐอเมริกาเมื่อปี 1972 ของนายฮัล วาเรียน (Hal Varian) โดยเขาพบว่ามีการปลอมแปลงข้อมูลขึ้นเพราะข้อมูลที่ออกมานั้นไม่สอดคล้องกับกฎของเบนฟอร์ดอย่างมากจนผิดปกติ

จะเห็นได้ว่าการค้นพบของเบนฟอร์ดนั้นเป็นแค่จุดเริ่มต้นของเรื่องราวเท่านั้น ยังมีปริศนามากมายที่รอการหาคำตอบเกี่ยวกับเจ้าเลขขึ้นต้นของข้อมูลในโลกนี้ โดยเฉพาะในปัจจุบันที่ศาสตร์ของการวิเคราะห์ข้อมูลขนาดใหญ่หรือ big data analysis กำลังมาแรง การเข้าใจธรรมชาติของข้อมูลต่าง ๆ จึงเป็นเรื่องสำคัญ และนั่นจึงทำให้จนถึงวินาทีนี้ กฎของเบนฟอร์ดก็เป็นหนึ่งหัวข้อที่ยังศึกษากันอยู่ทั่วโลกทั้งในทางคณิตศาสตร์ทฤษฏี ทางสถิติ และการประยุกต์กับศาสตร์แขนงต่าง ๆ มากมาย

แถมท้าย ใครที่สนใจเห็นว่ามีข้อมูลแปลก ๆ อะไรอีกบ้างที่สอดคล้องกฎนี้ สามารถลองเข้าไปเล่นที่เว็บไซด์นี้ได้

http://testingbenfordslaw.com/