כך הטכ' מסייעת לתיעוד העיתונות היהודית ההיסטורית מכל הזמנים

אייל מילר, המנהל את אתר העיתונות היהודית ההיסטורית, מספר על פרויקט הדיגיטציה של עיתונות יהודית היסטורית מכל הזמנים לרגל 20 שנה לייסודו

אייל מילר, מנהל את אתר העיתונות היהודית ההיסטורית.

בספרייה הלאומית ייפתח מחר (יום ב') כנס בן שלושה ימים לציון 20 שנה לייסודו של פרויקט הדיגיטציה של העיתונות היהודית ההיסטורית מכל הזמנים.

העיתונות היא מאבני היסוד של התרבות היהודית המודרנית והיא משקפת את ההשפעה הפוליטית, התרבותית והחברתית של החברה היהודית במאות האחרונות. בארכיון הספרייה הלאומית יש מאגר עצום, ברובו ייחודי, של העיתונים היהודיים שיצאו בעולם במאות הקודמות. לפני 20 שנה התקבלה החלטה אסטרטגית להנגיש את העיתונים לציבור הרחב באמצעות תהליכי דיגיטציה, סריקות, קטלוג והעלאה לאתר.

הפרויקט, שהחל באוניברסיטת תל אביב עם סריקת כותרים בודדים מצפון אפריקה וארץ ישראל, הפך לאחר כשני עשורים למאגר, המאפשר גישה חופשית ובלתי אמצעית למיליוני עמודים של עיתונים יהודיים, מכל רחבי העולם, במגוון לשונות – עברית, ערבית, ערבית-יהודית, יידיש, לדינו ושפות נוספות – מכל המקומות שהיו בהם יהודים.

בכנס שייערך השבוע, ישתתף, בין היתר, אייל מילר, המנהל את אתר העיתונות היהודית ההיסטורית. בראיון לאנשים ומחשבים הוא מספר על פרויקט הדיגיטציה של העיתונות היהודית, כיצד זה נעשה, עם אילו אתגרים התמודד ומה צפוי בעתיד.

מילר עובד בספרייה הלאומית קרוב ל-15 שנים. הוא החל את עבודתו כסטודנט בעת שלמד היסטוריה באוניברסיטה והמשיך לעבוד אחרי סיום לימודיו, ובשמונה שנים האחרונות הוא מנהל את אתר העיתונות העברית.

איך נולד רעיון הדיגיטציה של העיתונות היהודית?
"אנחנו מציינים 20 שנה לפעילות הדיגיטציה של העיתונות העברית היהודית, ולעוד פרויקטים דיגיטליים שונים. הרעיון החל באוניברסיטת תל אביב על ידי פרופ' ירון צור, השותף הוותיק שלנו, שנמנה עם מקבלי פרס ישראל ביום העצמאות השנה. ההתחלה הייתה דיגיטציה של עיתונות יהודית מצפון אפריקה במסגרת מפעל התיעוד של יהודי ארצות האיסלאם שהוא עמד בראשו. במקביל, הקימו כאן בספרייה הלאומית אתר שנקרא "עיתונות עברית היסטורית", שבו סרקו והעלו את העיתונות העברית ברחבי העולם ובישראל, כמובן, החל מימי היישוב היהודי. בשלב מסוים איחדנו את שני האתרים כדי לאחד כוחות, וכך קם למעשה האתר שאנחנו מנהלים בשותפות עם האוניברסיטה.

"האוסף העשיר הזה מייצג את המגוון הגיאוגרפי של הקהילות היהודיות ברחבי העולם. אפשר לומר כמעט בוודאות, שהיכן שהיו יהודים יצא לאור עיתון. בכל מקום שבו הייתה קהילה יהודית, היה גם בית כנסת, מקווה, ולעיתים יותר מעיתון אחד.

"אכן זה פרויקט עם אתגרים רבים, והוא נעשה עם שותפים רבים מכל העולם. בעשור הראשון חלק גדול מהעיתונים שנסרקו היה מאוסף הספרייה הלאומית, שכן על פי חוק משנת 1948, כל הוצאה לאור מחויבת לשלוח לנו כמה עותקים. בהמשך הגיעו עיתונים ודברי דפוס מקהילות ברחבי העולם כתרומות אן עיזבונות של אנשים".

עיתונות יהודית היסטורית

עיתונות יהודית היסטורית. צילום: הספרייה הלאומית ואוניברסיטת תל אביב

מה היעדים של הדיגיטציה וכיצד זה נעשה?
"המטרה המרכזית היא הנגשה לציבור של המידע הרב שנאסף. מאגר המידע הזה שייך לציבור, וחובתנו להחזיר אותו לציבור. תהליך הסריקה של העותקים שאנחנו מחליטים להעלות נעשה בטכנולוגיית OCR, כאשר כל דף נסרק בנפרד כדף עיתון, ובכל עיתון יש מספר רב של כתבות. אנחנו מבצעים סגמנטציה מלאה, שזו גם עבודה מורכבת בפני עצמה, כלומר הופכים כל כתבה ליחידה עצמאית, שניתן לשתף אותה בזכות עצמה בעצם. כך נוצר מאגר מידע אינסופי של מה שהתפרסם בעיתונות היהודית. מובן שמופעלים שם כלי החיפוש הרגילים, לפי שם העיתון, שם הכותב ועוד. אנחנו כמובן עובדים בשיתוף פעולה עם אגף ה-IT שלנו, בהובלת המנמ"ר איציק בורשן.

איך אתם מתמודדים עם בעיית העברית בסריקה?
"אכן נקודה חשובה. סריקת OCR בעברית עדיין אינה 100%, אתגר טכנולוגי מובנה שקיים שנים רבות, אבל אני חייב לציין שיש שיפור גדול בשנים האחרונות. לגבי שפות אחרות המצב טוב יותר. חוץ מזה, בזכות זה שאנו פועלים בתחום 20 שנה אפשר להבחין בהתפתחות של ה-OCR בעברית בכך שאתה משווה את איכות הסריקה מלפני 20 שנה נניח לעומת איכותה היום ורואה הבדלים משמעותיים".

לפי מה מחליטים מה לסרוק? הרי המאגר ענק.
"ההחלטה היא של ועדה בראשות פרופ' ירון צור, בשיתוף פעולה עם גופים שונים שתורמים למימון הפרויקט. לתורמים יש העדפות משלהם, וזה חלק מהשיקולים מה להעלות לאתר. אבל אני חייב להדגיש, שההסתכלות היא כללית והמטרה היא להנגיש את כל העיתונות היהודית, ללא שום העדפה מגזרית כלשהי".

אנחנו בעידן הדיגיטלי, עיתונים מודפסים יוצאים גם במהדורות אינטרנטיות. איך זה משפיע?
"השאיפה שלנו היא להנגיש כמה שיותר עיתונים מכל התקופות הקודמות, וגם העדכניים. אבל ככל שאנחנו מתקרבים לתקופתנו יש את המגבלה של זכויות יוצרים, שאסור לנו כמובן להפר אותה. אז יש עותקים שאנו מעלים ואפשר לצפות בהם רק בספרייה הלאומית. למשל, סיימנו את הדיגיטציה של כל הארכיון של עיתון הארץ עד 2003, אבל הוא זמין עד 1970 מחוץ לספרייה, בגלל זכויות יוצרים. בכל פעם מוסיפים עוד שנה. במעריב סרקנו עד שנות ה-90', ועיתונים אחרים שיש להם פורמט דיגיטלי – אנחנו מקבלים את קובצי ה-PDF".

כמה דפים נסרקו עד היום ומה עוד נשאר?
"עד היום יש לנו קצת יותר מחמישה מיליון דפים, שזה לא מעט, אבל ללא ספק יש לנו עוד הרבה עבודה, וללא ספק הפוטנציאל הוא גדול. זהו פרויקט עם עלויות תפעול מאוד גדולות. יש עוד מיליוני עמודים שלא סרקנו. אני מקווה שזה יימשך עוד הרבה שנים, ומאחל לכולנו שנזכה להגיע למספרי דפים גדולים הרבה יותר".

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים