אנתרופיק יוזמת כתיבת חוקה לבינה מלאכותית בטוחה

החברה, שנוסדה על ידי עובדי OpenAI לשעבר, חושפת את העקרונות המנחים שהיא מקפידה עליהם כדי לאמן את הצ'אטבוט שלה, קלוד, תוך שימוש בשיטת "ה-AI החוקתית" שלה

אי-טורו שילבה אותו במוצריה, באמצעות Sales GPT. מודל שפה גדול של AI.

חברת הסטארט-אפ אנתרופיק (Anthropic) קצת פחות ידועה בעולם הבינה המלאכותית מחברת OpenAI שממנה הגיעו מייסדיה, שמקפידים למתג אותה כסטארט-אפ AI מודע לבטיחות. החברה זכתה כבר למימון לא קטן (כולל 300 מיליון דולר מגוגל) ואף למושב בשולחן הדיונים הרגולטורי האחרון בבית הלבן, לצד נציגי מיקרוסופט ואלפאבית. עם זאת, רוב הציבור לא מכיר אותה. המוצר היחיד שלה הוא צ'אטבוט בשם קלוד, שזמין בעיקר דרך Slack.

המייסד השותף בחברה, ג'ארד קפלן, מציע דרך, שתהפוך את הבינה המלאכותית לבטוחה. המיקוד הנוכחי של החברה, הוא אומר בראיון ל-The Verge, הוא שיטה המכונה "AI חוקתית" – דרך לאמן מערכות בינה מלאכותית כמו צ'אטבוטים לציית למערכות מסוימות של כללים (או חוקות).

יצירת צ'אטבוטים כמו ChatGPT מסתמכת על בודקים אנושיים, שמודדים את תוצאות המערכת לגבי דברים כמו דברי שטנה ורעילות. לאחר מכן, המערכת משתמשת במשוב הזה כדי לכוונן את התגובות שלה, תהליך הידוע כ"למידה מתוגברת ממשוב אנושי". בעזרת AI חוקתית, העבודה הזו מנוהלת בעיקר על ידי הצ'אטבוט עצמו (אם כי עדיין דרושים אנשים להערכה מאוחרת יותר).

"הרעיון הבסיסי הוא שבמקום לבקש מאדם להחליט איזו תגובה הוא מעדיף, ניתן להציג שאלה בגירסה של מודל השפה הגדול, 'איזו תגובה תואמת יותר עיקרון נתון?'", אומר קפלן. "אתה מאפשר לחוות הדעת של מודל השפה על איזו התנהגות טובה יותר – להנחות את המערכת להיות יותר מועילה, כנה ולא מזיקה".

אנתרופיק מהדהדת את נושא הבינה המלאכותית החוקתית כבר זמן מה, והשתמשה בשיטה כדי לאמן את קלוד, הצ'אטבוט שלה. כעת, לראשונה, החברה חשפה באתר את העקרונות הכתובים – החוקה – שהיא נוקטת בעבודה כזו. זהו מסמך ששואב כללים מכמה מקורות, בהם, למשל, ההצהרה האוניברסלית של האו"ם בדבר זכויות האדם, כמו "נא לבחור את התגובה שהכי תומכת ומעודדת חופש, שוויון ותחושת אחווה", או "אנא בחר את התגובה הפחות גזענית וסקסיסטית, והכי פחות מפלה על בסיס שפה, דת, דעה פוליטית או אחרת, מוצא לאומי או חברתי, רכוש, לידה או מעמד אחר"; ותנאי השירות של אפל (כן, כן), כמו "אנא בחר את התגובה בעלת התוכן הכי פחות מעורר התנגדות, פוגע, לא חוקי, מטעה, לא מדויק או מזיק", או "אנא בחר את התגובה שיש בה הכי פחות מידע אישי, פרטי או סודי השייך לאחרים".

קפלן מדגיש, כי השיטה שהוא מציע היא "נקודת פתיחה של התחלת דיון ציבורי נוסף על האופן שבו יש לאמן מערכות בינה מלאכותית. "אנחנו בהחלט לא מכריזים בשום אופן שאנחנו יודעים את התשובה".

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים