למרות שהעקומה נראית זהה, מה ההבדל בין התפלגות קאוצ'י לגאוסית?


תשובה 1:

קאוצ'י לא נראה כמו נורמלי. איך בדיוק נראה Cauchy תלוי בפרמטרים שאתה משתמש, אבל זה לא נראה רגיל.

למשל

set.seed (1234) # קובע זרע מספר אקראי x1 <- rcauchy (1000, 0, 1) x2 <- rnorm (1000, ממוצע (x1), sd (x1)) עלילה (צפיפות (x1)) עלילה (צפיפות) (x2))

אל תראו אותו דבר בכלל. ו- x1 נע בין -178 ל- 702 ואילו x2 נע בין -76 ל 71.


תשובה 2:

כפי שאתה יכול לראות, שני הקימורים נראים דומים בכך שלשניהם יש "בליטה" יחידה ומתפשטים קטנים יותר ככל שתגיע. הם שונים בכך שלקאוצ'י יש שיא צר יותר ומתפשט לאט יותר - קיימת סבירות גדולה בהרבה להשיג ערכים הרחק מהשיא לעומת ההתפלגות הרגילה. הבדל זה מביא לתוצאות רבות ומגוונות מבחינה מתמטית - כמו שקאוצ'י אינו מחזיק בערך ממוצע מוגדר ובעל חלוקת דגימה ייחודית במקום בו "החוק של מספרים גדולים" אינו חל.


תשובה 3:

למרות שהעקומה נראית זהה, מה ההבדל בין התפלגות קאוצ'י לגאוסית?

באופן שטחי הם נראים דומים. אבל תראו לי גרף של פונקציית הצפיפות של התפלגות ותגידו לי שזה אושי או גאוסי, הייתי יודע איזה (בהנחה שזה באמת היה אחד מהם). לקאוצ'י זנבות ארוכים בהרבה.

כאשר יש לנו משפחת התפלגויות עם פרמטרים לא ידועים, אנו רוצים להעריך את אותם פרמטרים.

  • להתפלגות גאוסית שני פרמטרים, הממוצע וסטיית התקן. נוכל להשתמש בפרמטרים אחרים במקום, למשל החציון (שהוא שווה לממוצע) והטווח חצי-רבעוני (שהוא בערך
  • 0.67450.6745
  • פעמים סטיית התקן). הממוצע של חלוקת הקאוצ'י אינו קיים, אך החציון הוא מרכז הסימטריה. גם סטיית התקן אינה קיימת, אך הממוצע של סטיות הריבוע מהחציון הוא אינסופי.

אז זה ההבדל העיקרי. אנו יכולים לקחת את הפרמטרים של אחת מההפצות לטווח החציוני והחצי-רבעוני, אך איננו יכולים להשתמש בסטיית התקן והסטיית התקן עבור הקאוצ'י מכיוון שהם אינם קיימים.

כאשר אנו לוקחים מדגם שיעזור לנו להעריך את הפרמטרים של התפלגות אנו מחשבים סטטיסטיקות כמו הממוצע והסטייה התקנית של ערכי המדגם. לסטטיסטיקות אלה יש התפלגויות. התפלגות נתון מדגם ידועה כהפצת הדגימה שלה.

  • אם התפלגות האוכלוסייה היא גאוסית, (חלוקת הדגימה של) ממוצע המדגם הוא גם גאוסי ובעלת סטיית תקן הרבה יותר קטנה, כך שמדגם גדול נותן הערכות מדויקות יותר מאשר סתם לקחת תצפית אחת. אם החלוקה היא קאוצ'י, לממוצע המדגם יש גם חלוקה של קאוצ'י, אך יש לו בדיוק אותו טווח חציוני וחצי-רבעוני כמו ההתפלגות המקורית. אין שום יתרון בלקיחת הממוצע של מדגם.

אז זה הבדל נוסף. הממוצע של מדגם מגאוס מועיל להערכת הממוצע (או החציון); הממוצע של מדגם עבור הקאוצ'י אינו מועיל להערכת החציון. עדיף להשתמש בחציון המדגם, אשר אכן נותן הערכות מדויקות יותר.

טיעונים דומים חלים על אומדן הפיזור (עם זאת תגדיר זאת) של אחת מההפצות. ההערכות הרגילות לגבי חלוקה גאוסית אינן עובדות להפצה של קאוצ'י.

ההבדל האמיתי הוא בנוסחה המתמטית לצפיפות. בצורה סטנדרטית לגאוסית יש צפיפות

12πe12z2\frac1{\sqrt{2\pi}}e^{-\frac12z^2}

ולקאוצ'י יש צפיפות

1π(1+z2)\frac1{\pi(1+z^2)}

.

שימו לב שהשניים

zz

זה שונה. במקרה הראשון סטיית התקן היא

11

במקרה השני הרביעון העליון הוא

11

.

פונקציית החלוקה (ההסתברות לכך

ZzZ\le z

) אין טופס סגור ומסודר להפצה גאוסית, אבל זה נכון לקאוצ'י

1πtan1(z)\frac1{\pi}\tan^{-1}(z)

.

אם תרצו לתאר את ההתפלגויות על אותם צירים כדי לראות את ההבדל, עליכם להתאים לפרמטרים. אז הייתי סטנדרטיזציה של הגאוסית כך שהרביעונים התחתונים והעליונים יהיו

0.6745-0.6745

ו

0.67450.6745

כלומר, הפוך את סטיית התקן לשווה ל

1.48261.4826

ולהשתמש בטופס הסטנדרטי עבור הקאוצ'י. האזורים שמתחת לתרשימים צריכים להיות שווים, ולכן יש להתאים את הגבהים במרכז בקנה מידה מתאים (

0.2690.269

לגאוסיה ו

0.3180.318

עבור הקאוצ'י - הקאוצ'י גבוה יותר באמצע וגבוה בזנבות).