הספרייה הלאומית מקדמת פרויקטי AI לקליטת והנגשת חומרים יעילה
ראש אגף טכ' ומערכות מידע, איציק בורשן, חושף כיצד הספרייה הלאומית משתמשת ב-GenAI ובמודלי למידת מכונה כדי לתמלל כתבי יד עתיקים, לאתר יישויות בטקסט ולייעל את קיטלוג הארכיונים בהיקף עצום של נתונים
אנשי ה-IT בספרייה הלאומית ביצעו השנה כמה פרויקטי בינה מלאכותית ובינה מלאכותית יוצרת (GenAI), לטובת ייעול הטיפול בחומרים היסטוריים, וניתוח והנגשה שלהם לקהל הרחב ולקהילת החוקרים, כך אמר איציק בורשן, ראש אגף טכנולוגיה ומערכות מידע של הספרייה הלאומית.
בורשן דיבר אתמול (ב') בפתח מפגש שערכו חברי פורום C3 מבית אנשים ומחשבים בספרייה שבירושלים. את המפגש הנחה יהודה קונפורטס, העורך הראשי של הקבוצה.
"נכנסנו לעולם ה-AI כבר ב-2024", ציין בורשן, "אז התחלנו פרויקט בשיתוף פעולה של אוניברסיטאות בארץ ובעולם לתמלול כתבי יד עבריים עתיקים. המיזם שילב בינה מלאכותית ולימוד מכונה. תמלול כתבי יד בעברית אינו דבר פשוט. הטמענו מודלים של לימוד מכונה (ML), והקמנו תשתית לאימון המודל שיתמלל כתבי יד עבריים".
"כמה פרויקטי AI כבר עלו לאוויר בחודשים האחרונים", ציין בורשן, "ביניהם: חיפוש תמונות בשפה חופשית, פיתוח סביבת עבודה ממוחשבת המאפשרת לארכיונאי לשלוח מידע דיגיטלי לג'מיני, לעבד אותו בעזרת כלי AI ולהחזיר מידע מתומלל, מסוכם, המאתר ישויות בתוך פרטי המידע והופך אותן לניתנות לחיפוש. בנוסף, מערכת ה-AI מייצרת קובץ המוכן לקיטלוג אוטומטי במערכות הספרייה, וזו מהווה קפיצת מדרגה בקצב הקיטלוג של הארכיונים.

צוותי ה-IT שלה נעזרים ב-AI. הספרייה הלאומית. צילום: איתן חלפון
בפרויקט נוסף, לתיעוד עדויות של שורדי.ות טבח ה-7 באוקטובר, הכנסנו מנגנוני AI לטובת חיפוש ישויות בטקסט ואפשרות קישור שלהן לעדויות אחרות. כלל עובדי הספרייה, ובתוכם אנשי ה-IT, מתמקדים בהבנה של צרכי המשתמשים והחוקרים – כדי להרחיב את היכולות הקיימות ולאפשר להם בעתיד גישה מהירה ואינטואיטיבית – דרך ממשקים – אל חומרי הספרייה, לטובת עיבוד המידע".
בורשן משמש בתפקיד כשמונה שנים. בעברו היה מנמ"ר קל אוטו, מנמ"ר באינטל (Intel) ובמפעל מיקרון (Micron) בקריית גת, אשר הועבר לאינטל לפני תריסר שנים. בורשן ואנשיו היו אמונים על מעבר הספרייה למשכנה החדש, בהיבטי הכנת התשתיות והטמעת הטכנולוגיות. המעבר למשכן החדש היה אמור להיחגג באוקטובר 2023, ובשל הטבח, נערך בלא חגיגות.
"הר של מידע מורשת, המחכה להתגלות"
"הספרייה הלאומית", ציין בורשן, "נוסדה ב-1892 ואוספת ומשמרת מגוון ארכיונים, כתבי יד, ספרים, עיתונים, צילומים, תעודות, מפות, יצירות אמנות וחומרים חזותיים וקוליים – בעלי חשיבות לאומית. הנתונים מגוונים: מטה-דאטה, דאטה, אובייקטים דיגיטליים, טקסטים, קבצי וידיאו ומוזיקה". לדבריו, "האתגר שלנו הוא קיומו של הארכיון שלנו, שהוא 'הר של מידע מורשת', המחכה להתגלות".
עוד אחראית הספרייה לארכוב האינטרנט הישראלי ולמיזם תיעוד עדויות מה-7 באוקטובר. "אנו מטפלים בנתונים בנפח של יותר מ-3 פטה בייט, עם קצב גידול שנתי של 300 טרה בייט", סיפר בורשן. "אלו משקפים יותר מ-4.5 מיליון ספרים, 2.5 מיליון תצלומים, יותר מ-100 אלף עיתונים, 9 מיליון דפי עיתונים יהודים בעולם, יותר מ-600 אלף כתבי יד ויותר מ-10 אלפים מפות. בסך הכל יש לנו כשלושה מיליון פרטי ארכיון היסטוריים. לאתר נכנסים כמיליון גולשים בחודש".
באגף שבראשותו, ציין בורשן, יש 60 עובדים, מחציתם עוסקים בדיגיטציה. מערך ה-IT בספרייה הלאומית מטפל בחמש מערכות ליבה: ERP של פריוריטי; CRM מבית סיילספורס; עלמא – מערכות קיטלוג; פרימו – מנוע חיפוש מכוון ספריות ואוניברסיטאות; ורוזטה – לניהול אובייקטים דיגיטליים.
מחסן ממוחשב עם מערכת רובוטית
עוד ציין בורשן את המטמון האוטומטי: זהו מחסן ממוחשב, דליל בחמצן למניעת שריפות, ובו מערכת רובוטית, המאחסנת יותר מ-4 מיליון פריטים ומסייעת בשינוע של חומרי הספרייה ממקום אחסונם – אל הקוראים והחוקרים.
בימים אלו בורשן ואנשיו עורכים בדיקת היתכנות (PoC) לשינוע אוטומטי – ממערכת האחסון האוטומטי אל אולמות הקריאה, בלא מגע יד אדם. "זו אחת מהמערכות הרובוטיות הגדולות והייחודיות הקיימות", ציין.
"הנהלת הארגון, והעומד בראשה, אורן ויינברג, מנכ"ל הספרייה הלאומית, נותנים לנו רוח גבית בכלל פעילותינו", סיכם בורשן. "ה-IT מסייע לנו רבות בהגדלת התפוקות שלנו. טכנולוגיה וחדשנות הם מנועי הצמיחה של הספרייה. שילוב טכנולוגיות מתקדמות, דוגמת GenAI ולימוד מכונה, תומך ביעדיה המרכזיים: איסוף, שימור והנגשה של אוצרותיה לקהל הרחב ולקהילת החוקרים".











תגובות
(0)