על הבחנות עמומות, סיבתיות ופרדוקס סימפסון

שו”תקטגוריה: מחשבהעל הבחנות עמומות, סיבתיות ופרדוקס סימפסון
שואל שאל לפני 3 שנים

פוסט מעניין על הבדלים בינאריים מול הבדלים סטטיסטיים, וההשלכות על מוח גברי ומוח נשי.
 
אשמח לשמוע דעתך,

השאר תגובה

1 Answers
מיכי צוות ענה לפני 3 שנים

אכן טעות רווחת לגבי הבחנות עמומות. כמו ההבדל בין ציוני-דתי לחרדי, או שמאל וימין. מעניין וטיפוסי. שים לב לתמונות החתול והכלב שם שנראים באמת דומים. יש לי תחושה ששם לא מדובר רק על סטטיסטיקה (כלומר לדעתי אם נשנה את המינונים של הדמיון והשוני לא תמיד נקלע לכלב ולחתול גם אם נשמור על רוב המאפיינים של הכלב והחתול. יש כאן משהו מהותני מעבר לאוסף המאפיינים, אלא שקשה ללכוד אותו ולתרגם אותו למילים מהצורה החזותית הפשוטה). לפעמים (ואולי תמיד) דיבור על אוסף מאפיינים הוא רק מגבלה שלנו ביכולת ההגדרה ולא בדברים עצמם.
 
ראה פוסט מעניין מאד אחר שלו
למען האמת אני לא מסכים לדבריו. אם הבנתי נכון יש כאן בטבלאות סתם דגימה לא זהירה. הטבלאות הללו לא מייצגות קבוצות אנשים שנבחרו באופן אקראי אלא כאלה שהסכימו ליטול תרופה. אם תראה שתי הטבלאות אינן מסתכמות לזו הכללית (הרי יש 40 סה”כ ובכל תת טבלא יש גם 40. הגברים מתפלגים אחרת מהנשים (10 לקחו ו-30 לא לקחו ולהיפך). בקיצור כל העסק נראה לי הטעיה בעלמא, וההבחנה בין סיבתיות לקורלציה בעינה עומדת. יתר על כן, גם לשיטתו כשמכניסים את הסיפור כאן מכניסים בידיים את הסיבתיות. היא עדיין לא עולה מהנתונים הסטטיסטיים עצמם.
הקריקטורה שם היא יפהפייה. לכאורה יש שם שני מישורים מקבילים שבהם נבדק היחס בין קורלציה לסיבתיות. במושגים עצמם ובלמידה (ששינתה סיבתית או לא את העמדה). אבל לדעתי אם תשים לב יש שם יחס גרירה סיבתי בשלושה מישורים שונים (ולא רק שניים): הגרירה במושג הסיבתיות עצמו (סיבה גוררת מסובב). הגרירה הסיבתית בין קורלציה לסיבתיות (קורלציה גוררת סיבתיות). והגרירה בין למידת סטטיסטיקה להבחנה בין קורלציה לסיבתיות. נהדר. ועל כל אחד מהם עולה תהייה: האם בכלל יש גרירה סיבתית (ואולי הכל קורלציה. הדילמה של דייויד יום). האם קורלציה מבטאת סיבתיות או שזו רק קורלציה ביניהם (כלומר קורלציה בין קורלציה לסיבתיות). והאם הלמידה גרמה סיבתית לשינוי התפיסה או שזו רק קורלציה ביניהם.
——————————————————————————————
שואל (אחר):
אגב, הסתכלתי על הטבלה הכללית, ויש בה 80 סה”כ, ובכל תת טבלא 40, נראה שזה מסתכם בסדר.
——————————————————————————————
הרב:
כנראה טעיתי מחמת המהירות. תודה.
——————————————————————————————
שואל:
1. אני לא חושב שהאישיו שם זו ההסכמה לקחת תרופות. אין לזה תפקיד משמעותי בטיעונים שהוא מציג. לצורך העניין ניתן היה לכתוב את אותו פוסט כאשר הדגימה הייתה אקראית.
 
2. השאלה שלו לגבי האם יש משתנים נוספים שאם נדע אותם יכולים להפוך את התמונה – היא כמובן שאלה מצוינת, שאין עליה תשובה. לא שלא מצאנו את התשובה, אלא התשובה לא קיימת (אלא אם כן תהיה לנו המשוואה הכוללת של הפיזיקה או משהו גרנדיוזי כזה).
המרצה שלי בקורס הרלוונטי בסטטיסטיקה, כשלימד את פרדוקס סימפסון, אמר במפורש שאין כל דרך לנטרל מתמטית או סטטיסטית את פרדוקס סימפסון. אנחנו צריכים לחשוב טוב על כל המשתנים שאנחנו מצליחים לנטרל, וזה הכי טוב שיש לנו.
 
3. אין לי מושג על מה הוא מדבר לגבי “טובי הסטטיסטיקאים” שהתחבטו בנוגע לפרדוקס סימפסון. אין כאן כל התחבטות. כאשר יש תופעה של פרדוקס סימפסון כמתואר בפוסט, התשובה היא חד משמעית – לא נותנים את התרופה אף פעם, גם כאשר איננו יודעים את מינו של החולה שלפנינו.
לדעתי הנימוק הפורמלי הוא כדלהלן. נסמן את מינו של החולה להיות G, כאשר G=male או G = female. משתנה לא ידוע, אבל הוא כמובן נתון וקבוע ביחס לניסוי. אזי אנחנו יודעים שלכל G מתקיים,
P(E|C,G) < P(E|~C,G)
כלומר, הטעות שלו לדעתי היא שיש כאן התניה סמויה בעוד משתנים, שהוא פשוט לא כתב אותם. כאשר אתה נותן לחולה את התרופה ובוחן את התוצאות, הניסוי הזה מותנה ועומד במינו של החולה, ולכן הכתיב של P(E|C) zzz הוא כתיב מרושל (אך מקובל, ואין דרך להתחמק ממנו).
——————————————————————————————
הרב:
זה בדיוק מה שכתבתי. הוא מציג זאת כאילו יש כאן פרדוקס או פירכא על ההפרדה בין קורלציה לסיבתיות. אבל האמת היא שפשוט יש עוד משתנים חבויים (ההסכמה לקחת תרופות, או כל משתנה אחר. זה לא חשוב). לכן הקביעה שקורלציה אינה סיבתיות בעינה עומדת. ובכלל, לא הבנתי מה טיבו של הפרדוקס הזה, ולמה הוא פרדוקס. זה בסה”כ אומר שיש עוד משתנים, או שלקיחת המדגם לא היתה זהירה (בלי לקבוע שאפשר היה להיות זהיר יותר. בד”כ איננו יודעים מהם המשתנים הרלוונטיים, כמו שכתבת). מה פרדוקסלי בזה?
——————————————————————————————
שואל:
אם הבנתי נכון, הפרדוקס שהוא מציג זה השאלה האם לתת תרופה לאדם שמינו אינו ידוע לך. לדעתי אין בזה כל פרדוקס, כי התשובה היא שלילית – לא נותנים את התרופה לאף אחד.
 
הנקודה לגבי סיבתיות היא נכונה באופן כללי, לדעתי. אם אני מבין נכון, כנראה הפואנטה של יהודה פרל היא כזאת: אם היינו יודעים את הסיפור שמאחורי היווצרות הקורלציה שבפנינו, היינו יכולים להימנע מליפול בפרדוקס סימפסון מראש, כי היינו יודעים שיש השפעה למין (למשל).
 
באופן בסיסי יותר: בפנינו ערימת נתונים שקושרים בין אוסף נדגמים X (למשל יש לנו X1,X2,…,Xn אנשים), לבין פרמטר כלשהו Y (למשל, אם Yi=0 אז Xi בריא, ואם Yi=1 אז Xi חולה).
אנחנו רוצים לחלק את X לשתי תתי-קבוצות A,B (כאשר B היא הקבוצה המשלימה של A בתוך X) ונבדוק את ההשערה האם השתייכות לקבוצה A קשורה לבריאות (למשל A היא קבוצת האנשים שלקחו תרופה כלשהי). נניח שמצאנו קשר כזה, ואנחנו שמחים להכריע כי השתייכות לקבוצה A אכן קשורה לבריאות.
הבעיה שעומדת בפנינו היא האם החלוקה ל-A,B מוצדקת. אולי אם נוסיף עוד חלוקה לפי עוד פרמטר (למשל נחלק את A לגברים\נשים וגם את B לגברים\נשים), נקבל תשובות אחרות.
אם כך, אומר יהודה פרל, כדאי שנבין מהו הסיפור שעומד בבסיס הקשר בין A לבין בריאות, ואם נבין את הסיפור הזה שמתאר את הסיבתיות, נוכל להכריע האם ליחס את הבריאות להשתייכות לקבוצה A, או שיש כאן פרדוקס סימפסון ולמעשה צריך להוסיף את החלוקה לגברים\נשים כדי “להבין באמת” מדוע חברי A בריאים יותר.
 
למעשה מבחינה מתמטית, המון פעמים נוכל למצוא איזושהי חלוקה שרירותית נוספת שתהפוך את המגמה. גברים\נשים זו פשוט חלוקה שאנחנו רגילים אליה ושהיא כנראה הגיונית בכל מיני סיטואציות, אבל הסטטיסטיקה עיוורת להיגיון מוקדם. תמיד ניתן למצוא תת-קבוצה שרירותית שתהפוך לנו את המגמה. לכן כנראה הסיפור משחק תפקיד חשוב, כדי שנוכל להחליט איזו תת-חלוקה מוצדק לקחת בחשבון.
——————————————————————————————
הרב:
זה ברור לגמרי, אבל נראה לי טריביאלי. אם אתה  יודע את הסיפור אתה יודע את הסיבתיות, אבל זו בדיוק הבעיה שהקורלציות לא נותנות לך את הסיפור. אז מה החידוש כאן?
גם לגבי הפרדוקס אני לגמרי מסכים. לא לתת את התרופה כי יש פקטורים נוספים שמשפיעים ולא איתרנו אותם. לכן התמונה הסטטיסטית שלנו חסרה בעליל ולא  נכון להסתמך עליה. שוב, אני לא ממש מבין מה החידוש כאן.

השאר תגובה