שתף קטע נבחר

לא עוצרים בשחור

שני חוקרים פיתחו תוכנה שמסוגלת לזהות מלים שצונזרו באמצעות השחרתן בדיו. השניים, סטודנטית למדעי המחשב מאירלנד ומומחה הצפנה ישראלי, זיהו מילים שנמחקו ממסמכים רשמיים של ה-CIA

נראה כי שיטת המחיקה הוותיקה, במסגרתה מושחרות בדיו מילים שאינן מותרות לפרסום, פשטה את הרגל. השחרת מילים, סנקציה שמוכרת מסרטים (ולעיתים אף מהמציאות) נחשבה כשיטה זולה ויעילה להסתרת מילים אסורות ולמניעת פרסומו של מידע שהשלטון, יהיה אשר יהיה, אינו מעוניין לחשוף.

 

שני החוקרים שהוכיחו את הבעייתיות שבשיטה והביכו את ה-CIA הם קלייר וולאן, סטודנטית למדעי המחשב מאוניברסיטת דבלין ודיוויד נקש, ישראלי בן 37 המתגורר בפריז. השניים פענחו שני מסמכים שצונזרו על ידי הרשויות האמריקניות, והצליחו לגלות מהן המילים שהושחרו במסמכים. הם המציגו את ממצאים במסגרת כנס ההצפנה Eurocrypt 2004, שנערך בשוויץ בתחילת החודש.

 

מסמך מסקרן בטלוויזיה

 

המסמך הראשון שהוצג היה מזכר מחודש אוגוסט 2001, שמוען לנשיא ארה"ב, ג'ורג' בוש, וכלל ידיעות לגבי תקיפה אפשרית שעלול בין לאדן לבצע בארה"ב. המזכר, שחובר על ידי ה-CIA, נחשף בתקשורת בעקבות חקירת אירועי ה-11 בספטמבר 2001, והוצגו בו גם המילים שנצבעו בשחור, כדי להסתירן.

 

אחד המשפטים שצונזרו היה: "An Egyptian Islamic Jihad (EIJ) operative told an XXXXXXXX service at the same time that Bin Ladin was planning to exploit the operative's access to the US "to mount a terrorist strike. , כאשר ה-X מייצגים מילה שהושחרה.

 

בראיון ל-ynet סיפר נקש, המועסק כקריפטוגרפר בחברת Gemplus, יצרנית כרטיסים חכמים, כי צפה במסמך בטלוויזיה, והסתקרן. מכיוון שהוא משמש כמנחה של וולאן לדוקטורט, הוא הציע לה לנסות ולפענח מהי המילה שהוסתרה. השניים השיגו את המסמך, בפורמט PDF, והשלב הראשון בזיהוי המילה היה לסרקו למחשב, על מנת ליישרו.

 

"המסמך המקורי נסרק בשיפוע של 0.52 מעלות, שהקשה על זיהוי מדויק של סוג הפונט. היינו צריכים לצפות במסמך כשהוא מיושר לגמרי, כדי שהמחשב יוכל לזהות בדיוק את הפונט בו נכתב המזכר", הסביר נקש. בשלב הבא הוקלד המשפט בפונטים שונים, המתאימים לגובה המילים כפי שהופיעו במזכר של ה-CIA. את המשפטים הפכו לקובץ תמונה בפורמט Bitmap, וכך גם את קובץ ה-PDF המקורי ואז ערכו השוואה ביניהם.

 

1,530 מילים מתאימות

 

"אלגוריתם התוכנה ספר את הפיקסלים של כל משפט, ונתן ציון לכל אחד מסוגי הפונטים. הפונט שקיבל את הציון הנמוך ביותר פירושו דמיון רב יותר לפונט ששימש במסמך המקורי. לכן גם היינו צריכים ליישר את המסמך בשלב הראשון, כדי שכל הפונטים יהיו באותו הגובה", סיפר נקש. כך גילו השניים שמדובר בפונט אריאל.

 

ההשוואה נערכה באמצעות תוכנת OCR, מילון ואלגוריתמים לתוכנה שכתבו השניים במהלך ארבעה ימים. תפקידם של האלגוריתמים היה לבדוק את רוחב המילה שהושחרה, כמה מקום יש בין המילים שלפניה ואחריה, ואלו מילים אנגליות מתאימות, מבחינת רוחבן, להחליפה. השניים נעזרו בהם גם בכדי למדוד את רוחבן של כל המילים במילון, כאשר הן כתובות בפונט אריאל.

 

לאחר הסינון הם נותרו עם 1,530 מילים מתאימות מבחינת גובה ורוחב, למילה שהושחרה. בשלב הזה, מספר נקש, "הסתכלנו על ההקשר של המילים, וראינו למשל שיש את התחילית an, כך שהמילה חייבת להתחיל בתנועה (U,I,A,E,O) וככל הנראה מדובר בתואר השם (Adjective), שוב על פי ההקשר".

 

או אז נותרו השניים עם 346 מילים, מהן בררו, באמצעות תוכנה המנתחת את המילה מבחינה דקדוקית, שבע מילים אפשריות: Ugandan, Ukrainian, Egyptian, uninvited, incursive, indebted ו-unofficial, כשעל סמך המשך המשפט, המילה Egyptian (מצרי) נראתה המילה ההגיונית ביותר.

 

על מנת לוודא שהתוכנה אכן מצליחה לזהות מילים מצונזרות, בדקו השניים מסמך נוסף, שעסק בסיוע שנתנה מדינה מסוימת לעירק בהפיכת מסוקים אזרחיים לצבאיים, כאשר שמה של המדינה היה מושחר. השניים ביצעו פעולה דומה גם במסמך זה, ומצאו שהמדינה היא דרום קוריאה.

 

לא לשימוש מסחרי

 

"המסקנה שלנו היא שברגע שמחפשים משפטים שלמים שמוסתרים, כאשר אין מידע על ההקשר - מציאת המילים תהיה בעייתית, אך כשמדובר במילים בודדות, אפשר להיעזר גם ברוחב המילה וגם בהקשר, ואז השיטה שלנו בהחלט יעילה", אמר נקש.

 

לדבריו, אופן הפעילות של התוכנה, שאינה מיועדת לשימוש מסחרי ונכתבה רק לצרכי מחקר, דומה לבדיקת ההקשר שמבצע מעבד התמלילים וורד, שמתריע על משפטים שאינם נכונים מבחינה דקדוקית (באמצעות סימון קו ירוק מתחת למשפט, כרגע לא נתמך בעברית).

 

לדברי נקש, קל יותר לזהות מילים שנכתבות בפונט פרופורציונלי, כמו אריאל, שבו לכל אות יש רוחב משלה. לו ה-CIA היה משתמש בפונט monospace, כמו Courier, למשל, שבו לכל האותיות יש רוחב קבוע, היה הרבה יותר קשה לזהות את המילה.

 

סוכנות הידיעות AFP, אגב, דיווחה בינואר כי משרד החוץ הורה להחליף את הפונט ששימש אותו במשך שנים רבות לכתיבת מסמכים דיפלומטיים - Courier New 12 - ב-Times New Roman 14. בשלב זה, השינוי תקף רק לחלק מהמסמכים הרשמיים, כשהסיבה לכך נובעת מ"בקשות חוזרות ונשנות ומרצון להפוך את המסמכים לשנו לקריאים יותר", כפי שנכתב במזכר המקורי.

 

נראה כי במשרד החוץ לא היו מודעים לקלות בה ניתן לפענח את המילים הנכתבות בפונט זה, הזהה לאריאל מבחינת הקלות בה ניתן לפענח את המילים הנכתבות בו, כשלדברי נקש מדובר בצעד מוטעה.

 

מבחינה מעשית, טוען נקש, זוהי הוכחה ששיטת הצנזור של השחרת מילים ספציפיות וסריקה מחודשת של המסמך, אינה בטוחה מספיק, ויש לנקוט בגישות אחרות, ביניהן שינוי הפונטים, השחרת מילים עוקבות או משפטים שלמים וכדומה.

 

  תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
דיוויד נקש. שיטה לא מספיק בטוחה
דיוויד נקש. שיטה לא מספיק בטוחה
השוואת פונטים עם המסמך המקורי
השוואת פונטים עם המסמך המקורי
מומלצים