יהודים העלו מאז ומתמיד את עולמם על הכתב, במגוון רחב של תחומים. בכל השנים שבהן יהודים חיו בתפוצות ברחבי העולם, התפתחו המון שפות עבריות שונות (ערבית-יהודית, יוונית-יהודית ועוד). לכל מקום גאוגרפי היה את סגנון הכתיבה הייחודי לו, שהיה גם תלוי תקופה. לפי צורת האות, ניתן להבין מתי ובאיזה מקום נכתב טקסט מסוים.
בשנים האחרונות פעלו אגודת פרידברג לכתבי יד יהודיים, ובהמשך הספרייה הלאומית, לסרוק את כל כתבי היד. הם העלו אותם לאתר "כתיב" של הספרייה הלאומית. האתר כולל גם סריקות של הגניזה הקהירית, הנחשבת לאוסף הגדול והמגוון ביותר של כתבי יד יהודיים מימי הביניים, אשר נשמרו בעליית הגג של בית הכנסת בן עזרא ומקומות נוספים בקהיר.
7 צפייה בגלריה
קטע מהגניזה הקהירית
קטע מהגניזה הקהירית
קטע מהגניזה הקהירית
(צילום: דניאל שטוקל, שלבי התעתוק האוטומטי של קטע גניזה בכתב יד עברי. Cambridge University Library, T-S AS 1.3, פרויקט "כתיב", הספרייה הלאומית)
מדובר בלא פחות מקפסולת זמן של הקהילה היהודית בקהיר, אך גם של קהילות יהודיות אחרות שהיו עימה בקשר. למרות זאת, היא נותרה ברובה נגישה בעיקר לחוקרים. למעשה, פחות משליש מתוך כ-400 אלף פריטיה קוטלגו, ורק פחות מ-10% מהקטעים כוללים תעתוקים.
כעת, הודות לפרויקט פורץ דרך ניתן לתעתק אוטומטית את הכמויות האדירות של תצלומי הגניזה הקהירית ואוספים דומים אחרים בזמן קצר יחסית. באמצעות טכנולוגיה מתקדמת ניתן למעשה להתגבר על המכשול של הזמן הלוקח לתעתוק ידני, מה שאמצעי טכנולוגי עושה במהירות. באמצעות הפרויקט, הטקסטים העתיקים יהפכו לניתנים לחיפוש ולנגישים ברחבי העולם.
7 צפייה בגלריה
הצגת התעתוק האוטומטי לצד הדף
הצגת התעתוק האוטומטי לצד הדף
הצגת התעתוק האוטומטי לצד הדף
(צילום: דניאל שטוקל, שלבי התעתוק האוטומטי של קטע גניזה בכתב יד עברי. Cambridge University Library, T-S AS 1.3, פרויקט "כתיב", הספרייה הלאומית)
7 צפייה בגלריה
זיהוי שורות הטקסט על גבי הדף והצגת התעתוק האוטומטי לצד הדף
זיהוי שורות הטקסט על גבי הדף והצגת התעתוק האוטומטי לצד הדף
זיהוי שורות הטקסט על גבי הדף והצגת התעתוק האוטומטי לצד הדף
(צילום: דניאל שטוקל, שלבי התעתוק האוטומטי של קטע גניזה בכתב יד עברי. Cambridge University Library, T-S AS 1.3, פרויקט "כתיב", הספרייה הלאומית)
בעולם מחקר המסמכים ההיסטוריים, קריאה אוטומטית של כתבי יד וחיפוש טקסטואלי בתוכנם נראו בעבר בלתי ניתנים למימוש במציאות. למרות שזיהוי תווים אופטי (OCR) של חומר מודפס הוא דבר שבשגרה כיום, ביצוע דבר דומה עם כתב יד נראה בעבר רחוק מהשגה.
מגמה זו השתנתה בשנת 2023, כאשר המועצה האירופית למחקר (ERC) תרמה לראשונה מענק בסך 10 מיליון אירו לפרויקט MiDRASH (נדידות של מסורות טקסטואליות וכתובות באמצעות ניתוח חישובי בקנה מידה גדול של כתבי יד מימי הביניים בכתב עברי). אחת ממטרות הקצה העיקריות במתן המענק הייתה תעתוק אוטומטי ומדויק של כתבי יד באות עברית שיאפשר לכל אחד בעולם לבצע שאילתות מקיפות על כל כתב יד עברי.
7 צפייה בגלריה
בית הכנסת בן עזרא בקהיר
בית הכנסת בן עזרא בקהיר
בית הכנסת בן עזרא בקהיר
(צילום: Chema Grenda/Shutterstock)
במהלך השנתיים האחרונות, צוותי MiDRASH פיתחו מודלים אוטומטיים של ניתוח תמונה ותעתוק באמצעות eScriptorium – פלטפורמה בקוד פתוח לתעתוקים אוטומטיים של דפוסים וכתבי יד – עם תוצאות ראשוניות המציגות תעתוק מדויק למדי. לאחר השלמתם, תעתוקי הגניזה הקהירית ישולבו באתר "כתיב", בו מרוכז האוסף הבינלאומי של כתבי יד עבריים דיגיטליים.
את הצגת התוצאות הראשוניות של ניתוח הגניזה הקהירית (יום שני, 24 בנובמבר, בין השעות 10:00-11:00) יציגו בספרייה הלאומית שלושה מארבעת החוקרים הראשיים של פרויקט MiDRASH. החוקרים הם דניאל שטוקל בן עזרא, פרופסור לעברית עתיקה וארמית בבית הספר ללימודים עיליים (PSL) בפריז; נחום דרשוביץ, פרופסור אמריטוס בבית הספר למדעי המחשב ובינה מלאכותית באוניברסיטת תל אביב; וד"ר אבי שמידמן, מרצה בכיר לספרות עברית באוניברסיטת בר-אילן, חבר האקדמיה ללשון העברית וחוקר בכיר במרכז הישראלי לניתוח טקסט (DICTA). החוקרת הראשית הרביעית היא פרופסור יהודית אולשובי-שלנגר, נשיאת מרכז אוקספורד ללימודי עבר ויהדות.
7 צפייה בגלריה
שלט הכניסה לבית הכנסת בן עזרא בקהיר
שלט הכניסה לבית הכנסת בן עזרא בקהיר
שלט הכניסה לבית הכנסת בן עזרא בקהיר
(צילום: Aleksandra Tokarz/Shutterstock)
ד"ר צפרה זיו, מנהלת פרויקטים בתחום מדעי הרוח הדיגיטליים בספרייה הלאומית, אמרה כי מיזם MiDRASH משנה את כללי המשחק עבור כל מי שעובד עם כתבי יד עבריים מימי הביניים. "על ידי שילוב של למידת מכונה מתקדמת עם האוספים הדיגיטליים העצומים של הספרייה הלאומית, תומר עבודה מדעית קפדנית וארוכה שנמשכה שנים בכלים פורצי דרך שיקלו את המלאכה. ניתן יהיה לזהות סופרים, לעקוב אחר תנועת טקסטים בין אזורים, ואפילו לשאול שאלות מחקריות אחרות וחדשות על הטקסטים. במונחים מעשיים, פירוש הדבר שקשרים נסתרים יעלו על פני השטח וכתבי יד שלא היו מפוענחים יקבלו הקשר חדש", אומרת ד"ר זיו.
7 צפייה בגלריה
הצגת הטקסט כפי שנוצר באופן אוטומטי על גבי הדף
הצגת הטקסט כפי שנוצר באופן אוטומטי על גבי הדף
הצגת הטקסט כפי שנוצר באופן אוטומטי על גבי הדף
(צילום: דניאל שטוקל, שלבי התעתוק האוטומטי של קטע גניזה בכתב יד עברי. Cambridge University Library, T-S AS 1.3, פרויקט "כתיב", הספרייה הלאומית)
7 צפייה בגלריה
הרב שניאור זלמן הכהן שכטר, שנודע גם בשם סולומון שכטר, חוקר את גניזת קהיר
הרב שניאור זלמן הכהן שכטר, שנודע גם בשם סולומון שכטר, חוקר את גניזת קהיר
הרב שניאור זלמן הכהן שכטר, שנודע גם בשם סולומון שכטר, חוקר את גניזת קהיר
(צילום: Bridgeman Images/Reuters)
התהליך מתחיל בזיהוי אזורי הטקסט ושורות הטקסט על הדף. אז מבוצע תעתוק של כל שורה במלואה, משום שהזיהוי של כל אות תלוי גם באותיות השכנות (בהקשר של המילה ושל המשפט). מדגם של תוצרים אלה עובר בדיקה אנושית לתיקון טעויות, שמוזנות בחזרה למודל האוטומטי לשם למידה שלו. בהמשך ייעשה עוד מעבר אוטומטי של תיקונים בהתבסס על אלגוריתמים של שפה טבעית. "כל זה יעשה עבור כל אחד מסגנונות הכתיבה, כשהמטרה בסופו של דבר היא לתת מענה לכל סוגי הכתב באות עברית", מסבירה ד"ר זיו.
ד"ר צפרה זיוד"ר צפרה זיוצילום: לנס הפקות
האירוע "תעתוק-תון" יתקיים הן בספרייה הלאומית בירושלים והן באינטרנט, בין התאריכים 24 ל-27 בנובמבר, בין השעות 10:00 ל-18:00. הדגש יהיה על כתב עברי רהוט בכתבי יד מימי הביניים. הפעילויות יכללו סקירה ותיקון של תעתיקים אוטומטיים, תוך הדרכה מלאה לכל המשתתפים.