מגרדת דאטה בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט

לדברי החברה - שהביאה אל העולם את כלי ה-GenAI המופרסם ביותר, ChatGPT - הבוט פועל למען GPT ומשפר מודלים של בינה מלאכותית ● למה המהלך מטריד רבים והאם ניתן לחסום את הסורק?

השיקה סורק אינטרנט לטובת העשרת המודלים שלה. OpenAI.

על פי דיווחים אחרונים, OpenAI השיקה כעת GPTBot, אשר סורק אתרי אינטרנט (Web crawler) ולומד את תוכנם. המהלך זוכה לכותרות רבות עקב דאגות לזכויות היוצרים על התוכן שלהם, וכן משום חשש כללי מפני הידע האינסופי שצוברת הבינה המלאכותית בניצוחה של OpenAI עלינו ומאיתנו, וכל מה שנלווה למצב זה.

"דפי אינטרנט שנסרקו באמצעות ה-GPTBot עשויים לשמש לשיפור מודלים עתידיים והם מסוננים כדי להסיר מקורות הדורשים גישה לחומת תשלום, או הידועים כאוספים מידע המאפשר זיהוי אישי (PII), או מכילים טקסט שמפר את המדיניות שלנו", הרגיעה OpenAI את המוטרדים מהמהלך, בפוסט שהעלתה לאתר האינטרנט שלה.

מאידך פנתה החברה – שהביאה אל העולם את כלי הבינה היוצרת (GenAI) המופרסם ביותר, ChatGPT – למתעניינים ולחוששים והסבירה כי "מתן אפשרות ל-GPTBot לגשת לאתר שלכם יכול לעזור למודלים של AI להיות מדויקים יותר ולשפר את היכולות הכלליות והבטיחות שלהם".

סורקי אינטרנט אינם עניין חדש בעולמנו. הסורק הפעיל ביותר שאיש לא מתכחש לקיומו הוא כנראה ה-Googlebot של גוגל, אשר אוסף באופן אוטומטי מידע באינטרנט כך שמאוחר יותר הענקית ממאונטיין וויו תוכל לדרג ולהציג את הממצאים שלו בתוצאות החיפוש במנוע המפורסם שלה. בדיוק כמו הסורקים האחרים, GPTbot משמש כדי "לגרד" ולאסוף תוכן מקוון. במקה שלו הוא עושה זאת לשם אימון מודל הבינה המלאכותית המתקדמת של OpenAI, כשמודל השפה הגדול הבא, GPT-5, ככל הנראה יאומן על הנתונים שייאספו על ידי הבוט הזה.

GPT-4 ו-ChatGPT ומודלי שפה גדולים (LLMs) חזקים אחרים כבר מפגינים כיום יכולות לענות על שאילתות (וכן לקודד, לכתוב תוכן באינספור אופנים ועוד), ומיתרים את הצורך של משתמשים לחפש מענה בעצמם באתרים שבהם עלה המידע במקור. אלא שההישענות הנרחבת על החברה שמאחוריהם על מידע חינמי באיכות גבוהה באינטרנט – מעוררת ברבים תהיות וחוסר מנוחה.

נזכיר כי OpenAI נוסדה ב-2015 על ידי דמויות בולטות מעמק הסיליקון, ביניהן אילון מאסק, ריד הופמן ופיטר ת'יל כשבראשם המנכ"ל הנוכחי שלה, סם אלטמן. יחד, הם התחייבו להשקיע כל אחד מיליארד דולר בפרויקט, כשהחברה הוקמה כארגון ללא מטרות רווח בכדי לתת לכל אדם גישה ליכולות הבינה המלאכותית מתקדמת לכשיפותחו כאלו, אך לבסוף בשנת 2019 היא הפכה לחברה רגילה, ומאסק כידוע בכלל פרש ממנה מזמן וכבר עסוק עד צוואר בניסיונות להתחרות בה, ולהביא לעולם כלי AI שלטענתו יהיה אחראי ומוצלח בהרבה.

המודלים של OpenAI ישוכללו על חשבון בעלי האתרים והתוכן?

עקב הודאתה של OpenAI בהשקתו של הבוט הסורק, תהה אליסטר בר, בטור דעה שהתפרסם בביזנס אינסיידר: "מדוע שיצרן כלשהו של תוכן מקוון חינמי יאפשר ל- OpenAI לגרד את החומר שלו, כאשר נתונים אלה ישמשו להכשרת LLMs עתידיים, שמאוחר יותר יתחרו ביוצר זה על ידי משיכת משתמשים מהאתר שלו?". הוא המשיך וכתב ש-"אתם כבר יכולים לראות את זה בפעולה, מכיוון שפחות אנשים מבקרים ב-Stack Overflow (אתר שו"ת למפתחים – ג"פ) כדי לקבל עזרה בקידוד תוכנה".

ונראה ש-בר הצליח לסכם את הבעיה הראשית של בעלי אתרים ויוצרי תוכן עם המהלך.

הסוגיה הגיעה בהרחבה לרשתות החברתיות, כשרבים ממליצים ליוצרי תוכן ובעלי אתרים לחסום את הסורק.

כך למשל, מארק טננהולץ, מהנדס מכונות שהפך למדען נתונים, מתריע בציוץ ב-X: "עכשיו אתם יכולים לחסום את ChatGPT מלסרוק את האתר שלכם. רוב האנשים לא חוסמים את גוגל מפני סריקה, כי הופעה בתוצאות החיפוש מגבירה את התנועה לאתר שלכם. למרבה הצער, ChatGPT לא עושה זאת (לעיתים קרובות גם אם הוא מתבקש לצטט מקורות). אני מצפה שהרבה אנשים יחסמו את GPTBot".

לציוץ הזה הוסיף טננהולץ צילום מסך מהפוסט המקורי של OpenAI ובו הסבר כיצד לחסום את הסורק.

משתמש בשם אנורג אגראוול צייץ וכתב: "הרבה הבטחות הובטחו על ידי OpenAI בנוגע לשקיפות, כאשר אלטמן היה סופר קולני לגבי נורמות ומדיניות עבור AI. עם זאת, המהלך הזה של OpenAI מספר סיפור אחר. הם יכלו בקלות לבקש מכל אתר לאפשר את התנועה של GPTBot, אבל הם לא עשו זאת, ועם GPT-5 ממש מעבר לפינה, אנחנו יודעים לאן הנתונים האלה יגיעו".

צייצנים רבים אחרים הפיצו את אותה קריאה ופרטים על אופן חסימת הבוט גם הם, בתוך הדגשה של כעסם על כך ש-OpenAI לא טרחה או טורחת לבקש מאתרים רשות ואישור למעשיה.

תגובות

(2)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. יז

    AI ייקח את רוב המשרות הייטק הישראלי ועצוב לי על כך

    1. אברום רותם

      לאורך הזמן יש שינוי דינמי מתמיד בשוק העבודה. לשם מה הקינות הללו? הרי גם הרכבת ובעקבותיה המכונית, דחקה במשך זמן לא ארוך את כל פלח הסוסים, מרכבות, רתמות, וטרינרים, מזון לסוסים ועוד ועוד. הפלאסטיק ששינה משמעותית את העולם ועוד ועוד. וכל זאת עוד לפני המחשב. העולם ממשיך להסתובב ולא נגרע ממנו אפילו חלקיק שניה. עצם הייחוס לבינה המלאכותית מאפייני-על שחלקם מסתוריים שיהפכו את העולם - מוגזם ומוקצן לגמרי. השינוי היותר משמעותי הנו התרחבות האוכלוסייה למספרים עצומים, שמחייב שינוי משמעותי גם בשוק העבודה, ואין ספק שהבינה המלאכותית היא אחד המרכיבים בשינוי חיוני זה. ולא לשכוח שהבן.ת-אדם נשאר אותו הדבר לטוב ולרע... במיוחד הרע. את זה שום טכנולוגיה לא תשנה... אז אפשר להירגע.

אירועים קרובים