top of page

נתונים חסרים: מה עושים כשלא הכול מושלם?

 

נתונים חסרים הם אחד האתגרים השכיחים והמתסכלים ביותר בניתוח מחקרי. משתתף לא הגיע למדידת המעקב, מישהו דילג על שאלה בשאלון, או שמכשיר מדידה נכשל – והנה יש לנו תאים ריקים בטבלת הנתונים. הטיפול הלא נכון בנתונים חסרים עלול להוביל להטיות משמעותיות, אובדן עוצמה סטטיסטית, ומסקנות שגויות. אבל עם הגישה הנכונה, אפשר להתמודד עם הבעיה בצורה אחראית ומדעית. הנה מדריך מקיף על סוגי נתונים חסרים, שיטות הטיפול המקובלות, ומה בהחלט כדאי להימנע ממנו.

הבנת סוגי הנתונים החסרים

לפני שבוחרים שיטת טיפול, חשוב להבין מה הסיבה לחסר. יש שלושה סוגים עיקריים של נתונים חסרים, והבחנה ביניהם קריטית. הסוג הראשון הוא MCAR (Missing Completely At Random) – נתונים חסרים לגמרי באקראי. זה אומר שהסיכוי שנתון יהיה חסר לא קשור לשום משתנה אחר, לא למשתנה עצמו ולא למשתנים אחרים במחקר. לדוגמה, משתתף שכח את השאלון בבית באקראי. זהו המצב האידיאלי, אבל הוא נדיר במציאות.

הסוג השני הוא MAR (Missing At Random) – נתונים חסרים באקראי. במקרה הזה, הסיכוי שנתון יהיה חסר קשור למשתנים אחרים שנמדדו, אבל לא למשתנה החסר עצמו. לדוגמה, גברים נוטים פחות למלא שאלות על רגשות – אז החסר קשור למגדר (שנמדד), אבל לא לרמת הרגשות עצמה. זהו המצב השכיח ביותר, והרבה שיטות סטטיסטיות מודרניות יכולות להתמודד איתו.

הסוג השלישי הוא MNAR (Missing Not At Random) – נתונים חסרים שלא באקראי. כאן הסיכוי שנתון יהיה חסר קשור לערך של המשתנה החסר עצמו. לדוגמה, אנשים עם דיכאון חמור נוטים יותר לא להגיע למעקבים – אז החסר קשור לרמת הדיכאון עצמה. זה המצב הבעייתי ביותר, כי הטיפול בו מורכב ודורש הנחות מיוחדות.

שיטות טיפול מומלצות בנתונים חסרים

השיטה הראשונה והפשוטה ביותר היא מחיקת רשומות עם נתונים חסרים (Listwise Deletion או Complete Case Analysis). בשיטה זו מסירים מהניתוח כל משתתף שיש לו ערך חסר באחד מהמשתנים. השיטה הזו פשוטה ליישום ומובנת, והיא מתאימה רק כאשר אחוז החסר נמוך מאוד (פחות מ-5%) והחסר הוא MCAR. היתרון הוא שהניתוח נשאר פשוט וברור. החיסרון הוא אובדן משמעותי של עוצמה סטטיסטית – אם יש 20% חסר בכמה משתנים, עלולים לאבד חצי מהמדגם. בנוסף, אם החסר לא MCAR, השיטה מייצרת הטיה.

השיטה השנייה היא השלמה בממוצע או במדיאן (Mean/Median Imputation). כאן ממלאים את הערכים החסרים בממוצע (או מדיאן) של המשתנה מכל המשתתפים האחרים. לדוגמה, אם חסר ציון במבחן, ממלאים את הממוצע של כל הציונים. השיטה הזו שומרת על גודל המדגם ופשוטה ליישום. אבל יש לה חיסרון משמעותי: היא מקטינה באופן מלאכותי את השונות בנתונים ויכולה להטות קורלציות ומבחנים סטטיסטיים. לכן, רוב הסטטיסטיקאים לא ממליצים עליה, אלא אם כן אחוז החסר מאוד נמוך (פחות מ-3%) והחסר הוא MCAR.

השיטה השלישית והמומלצת יותר היא השלמה מרובה (Multiple Imputation - MI). זוהי שיטה סטטיסטית מתקדמת שיוצרת מספר (בדרך כלל 5-10) גרסאות של מערך הנתונים, כשבכל גרסה הערכים החסרים ממולאים בערכים שונים המבוססים על המידע הקיים והקשרים בין המשתנים. אחר כך מבצעים את הניתוח על כל גרסה בנפרד, ומאחדים את התוצאות למסקנה אחת. היתרון הגדול של MI הוא ששומרים על השונות הטבעית בנתונים, השיטה מתאימה למצבי MAR, והיא מקובלת מאוד באקדמיה. החיסרון הוא שהיא מורכבת יותר מבחינה טכנית ודורשת תוכנה סטטיסטית מתאימה (SPSS, R, SAS). כמעט כל התוכנות המובילות מציעות היום פונקציות MI.

השיטה הרביעית היא Maximum Likelihood (ML) או Full Information Maximum Likelihood (FIML). במקום למלא ערכים חסרים, השיטה משתמשת בכל המידע הזמין כדי לאמוד את הפרמטרים של המודל הסטטיסטי. השיטה מתאימה במיוחד למודלים מורכבים כמו מודלים מבניים (SEM) או ניתוחים רב-רמתיים. היתרון הוא שהשיטה יעילה מאוד ומטפלת טוב במצבי MAR. החיסרון הוא שהיא דורשת תוכנה מתקדמת והבנה טובה של מודלים סטטיסטיים.

השיטה החמישית היא ניתוח רגישות (Sensitivity Analysis). כאן לא ממלאים את החסר, אלא בודקים איך התוצאות משתנות תחת הנחות שונות לגבי הנתונים החסרים. לדוגמה, מריצים את הניתוח עם תרחיש אופטימי (הנתונים החסרים טובים), תרחיש פסימי (הנתונים החסרים רעים), ותרחיש ניטרלי. אם התוצאות דומות בכל התרחישים, אפשר להיות בטוחים יותר במסקנות. זו שיטה חשובה במיוחד במצבי MNAR או כשיש הרבה חסר.

שיטות שכדאי להימנע מהן

יש מספר שיטות נפוצות שנראות אינטואיטיביות אבל הן בעייתיות. השיטה הראשונה שכדאי להימנע ממנה היא מחיקה זוגית (Pairwise Deletion). בשיטה זו, בכל חישוב משתמשים רק במשתתפים שיש להם נתונים לשני המשתנים הספציפיים באותו חישוב. נשמע הגיוני, אבל הבעיה היא שכל חישוב מבוסס על קבוצה שונה של משתתפים, מה שיכול להוביל לחוסר עקביות ולמטריצות קורלציה שלא הגיוניות מתמטית. השיטה מייצרת תוצאות לא צפויות ולא עקביות.

השיטה השנייה שבעייתית היא השלמה בערך קבוע שרירותי (Constant Value Imputation). כאן ממלאים את כל הערכים החסרים במספר קבוע, למשל אפס או 999. זה יוצר עיוות דרמטי בהתפלגות הנתונים והופך את הממצאים לחסרי משמעות. השיטה הזו הגיונית רק במקרים מיוחדים מאוד, למשל כשהחסר הוא בעצמו משמעותי (למשל, "לא חל").

השיטה השלישית שכדאי להימנע ממנה היא השלמה קדימה/אחורה (Forward/Backward Fill) ללא הצדקה. בנתונים אורכיים (זמן), לפעמים ממלאים ערך חסר בערך מהמדידה הקודמת או הבאה. זה יכול להיות הגיוני במקרים מאוד ספציפיים (למשל, נתוני מניות), אבל במחקרים קליניים או חברתיים זה בדרך כלל לא מתאים – אנשים משתנים עם הזמן, והנחה שהם נשארו זהים היא בעייתית.

השיטה הרביעית שבעייתית היא התעלמות מהבעיה ותקווה שהיא תיעלם. חשוב להדגיש: רוב התוכנות הסטטיסטיות מבצעות אוטומטית מחיקת רשומות (listwise deletion) כשיש חסר, בלי לספר לכם. אם לא מטפלים בחסר במודע, עלולים לאבד הרבה נתונים בלי לשים לב, ולקבל תוצאות מוטות.

עקרונות מנחים לטיפול בנתונים חסרים

כדי להחליט איך לטפל בנתונים חסרים, כדאי לעקוב אחרי כמה עקרונות. ראשית, תמיד בדקו כמה חסר יש ואיפה. צרו דוח של אחוזי חסר לכל משתנה ודפוס החסר. אם יש יותר מ-5% חסר, תתייחסו לזה ברצינות.

שנית, נסו להבין למה החסר קיים. התייעצו עם צוות המחקר, בדקו את השאלונים והנהלים. האם החסר אקראי או יש דפוס? האם קבוצות מסוימות נוטות יותר לחסר?

שלישית, דווחו בשקיפות על החסר ועל הטיפול בו. בפרסום המחקר, תמיד כתבו: כמה נתונים היו חסרים, מה הסיבה המשוערת, איזו שיטת טיפול השתמשתם, ולמה בחרתם בה.

רביעית, העדיפו שיטות מתקדמות כמו MI או FIML על פני מחיקה או השלמה פשוטה, במיוחד כשיש יותר מ-10% חסר. השיטות האלו נתמכות היטב במחקר ומקובלות באקדמיה.

חמישית, שקלו ניתוח רגישות – בדקו איך התוצאות משתנות תחת הנחות שונות. זה מחזק את המסקנות ונותן ביטחון שהן לא תלויות רק בשיטת הטיפול שבחרתם.

המלצות מעשיות לפי אחוז החסר

כדי להקל על ההחלטה, הנה כמה המלצות כלליות לפי גודל הבעיה:

אם יש פחות מ-5% חסר והחסר נראה אקראי – מחיקת רשומות (listwise deletion) בדרך כלל מקובלת. הטיה והאובדן בעוצמה מינימליים.

אם יש 5-10% חסר – השתמשו ב-MI או FIML. אלו שיטות בטוחות יותר ושומרות על עוצמה סטטיסטית.

אם יש 10-20% חסר – חובה להשתמש ב-MI או FIML, ורצוי לבצע ניתוח רגישות. דווחו בפירוט על הטיפול.

אם יש מעל 20% חסר – זו בעיה רצינית. שקלו לאסוף נתונים נוספים, להתייעץ עם סטטיסטיקאי, ולבצע ניתוחי רגישות מקיפים. ייתכן שהמחקר מוגבל בהיקף המסקנות.

לסיכום

נתונים חסרים הם מציאות בכל מחקר, אבל הטיפול הנכון בהם יכול לעשות את ההבדל בין מסקנות מהימנות לבין תוצאות מוטות. ההמלצה החשובה ביותר היא לא להתעלם מהבעיה ולא להשתמש בשיטות פשטניות שיוצרות הטיות. העדיפו שיטות מודרניות כמו MI או FIML, היו שקופים בדיווח, ובמקרה של ספק – התייעצו עם סטטיסטיקאי. זכרו: נתונים חסרים הם לא אסון, אלא הזדמנות לטיפול מושכל ואחראי שמחזק את איכות המחקר.

Missing-data-mechanisms-and-how-to-handle-it-Ledidi-Academy.jpeg
bottom of page