top of page

פורטל ידע

על חשיבות הנתונים להצלחת הבינה המלאכותית


מאת: רז הייפרמן | יועץ בכיר לטרנספורמציה דיגיטלית ודירקטור BDO Digital וחבר נשיאות הלשכה



 



רקע

 

אנו בעיצומו של עידן הבינה המלאכותית - AI. טכנולוגיה זו פותחה לפני שנים רבות, אולם נדמה כי מאז הופעת ChatGPT בשנת 2023, כולם מדברים עליה ועסוקים בה, ודנים ביתרונותיה, בסיכוניה, בהשפעתה על התעסוקה, בפוטנציאל השיבוש הגדול שלה ובהשפעתה העצומה על ארגונים. ענקיות הטכנולוגיה נמצאות במרוץ בלתי פוסק להוביל ולקדם את ה AI.

 

את הצעדים הראשונים של ה AI מקובל לייחס למתמטיקאי Alan Turing, בין מפתחי מכונת ה Enigma שהצליחה לפצח את הצפנים של הצבא הגרמני במלחמת העולם השנייה. בשנת 1950 Turing הציע את ה Imitation Game (שהפך מאוחר יותר למבחן טורינג) שבו א דם נמצא מאחורי קיר, ומשוחח בשפה טבעית עם אדם ועם מכונה. אם הוא אינו מסוגל להבחין מי עונה לו, המכונה או האדם, נאמר שהמכונה מפגינה יכולות אינטליגנטיות. בשנת 1956 פרופ' John McCarthy טבע לראשונה את המונח אינטליגנציה מלאכותית כ "המדע וההנדסה הנדרשים לייצור מכונות אינטליגנטיות" וארגן כנס מדעי ב Dartmouth College. לעומת פיתוח תוכנה בפרדיגמה If-then-else, פרדיגמה ידועה שמלווה אותנו שנים רבות בפיתוח תוכנה, חוקרי הבינה המלאכותית עברו לפרדיגמה של למידה בלתי פוסקת מתוך דוגמאות (דאטה). אחת ההתפתחויות הדרמטיות בתחום ה AI הייתה הופעת למידת המכונה (Machine Learning), נושא שהוצג לראשונה בשנת 1959 ע"י מדען בחברת יבמ ומאז הלך והתפתח ומהווה כיום ענף חשוב ב AI.  

 

טכנולוגיית ה AI היא משפחה רחבה של אלגוריתמים בעלי פוטנציאל במגוון רחב של יישומים עסקיים – זיהוי סרטן בצילומי רנטגן, תרגום בין שפות, סייען קולי כמו Alexa של אמזון, מערכת Copilot המשולבת כיום בכל מוצרי מיקרוסופט, מנוע החיפוש של גוגל, תמיכה בנהיגה אוטונומית, מערכות זיהוי פנים, מנועי המלצה באתרים של אמזון, נטפליקס ועוד. פוטנציאל גדול זה, גורם להתלהבות רבה והארגונים אצים ליישמה.

 

הבינה המלאכותית היוצרת (GenAI), אחד מענפי ה AI, היא מערכת תוכנה המסוגלת לייצר תוכן כגון טקסט, תמונות, וידיאו, קול ועוד. טכנולוגיה זו פרצה לעולמנו בסערה לאחר שמספר מדענים ממעבדות גוגל פיתחו את מודל ה Transformer, ארכיטקטורה ייחודית של רשת ניירונית. מערכת Chat GPT של חברת Open AI, הגיעה תוך חודשיים ל 100 מיליון משתמשים, ומאיימת לשבש תחומים רבים מאד. המנוע מאחורי ה GenAI, מבוסס מודל שפה (LLM – Large Language Model) וארכיטקטורת ה Transformer. המודל המוזן בכמויות עצומות של נתונים רלוונטיים בשלב האימון (Training). כדי להפוך מודלים אלה לרלוונטיים לארגון, יש לאמן מודלים אלה עם נתונים ייעודיים של הארגון.

 

מטרת מאמר זה היא להסב את תשומת הלב של הארגונים המבקשים ליישם את טכנולוגיות ה AI, לנושא הנתונים. על הארגונים להפנים - בלי נתונים אין AI!! הנתונים הם חומר הגלם של תהליכי ה AI – בלעדיהם אין AI.


אסטרטגיה ומשילות נתונים – תשתית הכרחית

 

אחד האתגרים הגדולים בכל הקשור לנתונים הוא בניית מאגר נתונים משותף ואיכותי לכל הארגון (Shared Dataset) ולא מאגר ייעודי לכל אגף/מחלקה (איי נתונים - Insular Data). מאגר משותף יאפשר לארגון הפקת תובנות חוצות אגפים וקבלת תובנות והחלטות טובות יותר.

 

כדי להצליח ביישום AI חשוב שלארגון תהיה אסטרטגיית נתונים ברורה תוך יישום תהליכי משילות נתונים. אסטרטגיית הנתונים צריכה להתייחס לנושאים כגון:

 

  • אסטרטגיה ומדיניות נתונים – על הארגון לפתח מדיניות ונהלים ברורים לשימוש בנתונים – כיצד הנתונים רשומים במילון נתונים, כדי שניתן יהיה לאתרם בקלות, מי אחראי על מה בתחום הנתונים וכד'.

  • מומחי נתונים (Data Experts) – הצלחה ביישומי AI מחייבת מספר רב של מומחי נתונים – מדעני נתונים, מהנדסי נתונים, מומחי למידת מכונה ועוד. מומחיות זו בדרך כלל לא קיימת בתוך הארגון ולכן יש לגייס ולשמר מומחים אלה.

  • סקר מצב נתונים (Current Data Landscape) – סקר מקיף על מצב הנתונים במאגרים השונים והכנת תכנית עבודה לשיפור והעשרה.

  • שלמות, איכות ואמינות (Data Integrity & Quality) – חשוב להבטיח שהנתונים המשמשים לאימון המודלים של ה AI יהיו איכותיים ומדויקים. מערכות AI שמוזנות עם נתונים בעלי איכות ירודה, יפיקו תוצאות ותובנות ירודות.

  • סיכון הטיות בנתונים (Bias Risks) – הנתונים עלולים להיות עם הטיות בגלל מקור הנתונים בארגון (למשל רק לקוחות גברים, למשל לקוחות מאזור תל אביב בלבד וכד'). על הארגון להיות ער לסיכון ההטיה ולגוון את הנתונים כל שאוכלוסיות שונות תיוצגנה בצורה הוגנת ומאוזנת.

  • פרטיות (Data Privacy) – על הארגון להבטיח את צנעת הפרט ואת השימוש הנאות והאתי בנתונים, תוך ציות לרגולציות השונות שחלות במדינה (למשל GDPR וכד').

  • נגישות הנתונים (Data Accessibility) – על הארגון להשקיע בהנגשת הנתונים בצורה קלה ע"י יישום מילון נתונים המתאר את המשמעות של הנתונים, מהם המקורות והעדכניות שלהם, כיצד בוצעו חישובים במידה ובוצעו, ועוד. על הארגון לדאוג להנגשת נתונים פנים ארגוניים, אבל גם לנתונים מחוץ לארגון.

  • ענן לגידול וצמיחה (Scalability by Cloud) – כמויות הנתונים שהארגון צריך לצבור כדי להזין את מערכות ה AI הולכות וגדלות. כדי להתמודד עם אתגר גידול הנתונים, הארגון יצטרך להשתמש בטכנולוגיות ענן ורצוי שיעשה זאת מוקדם ככל הניתן.

  • אבטחת הנתונים (Data Security) – הנתונים הנדרשים למודלים של AI עלולים להיות בעלי משמעות עסקית שאסור לה לדלוף. על הארגון להגן על הנתונים ולדאוג לאבטחת המידע שלהם.

  • ניטור רציף (Monitoring) – הטיפול בנתונים איננו מבצע חד-פעמי אלא דורש ניטור רציף על מצבם.

  • טיפוח תפיסת Data-Driven Organization – טיפוח והדרכה בלתי פוסקים של תפיסת חשיבות הנתונים ואיכותם בתהליכי העבודה וקבלת החלטות עם AI.

 

סיכום

אין ספק שטכנולוגיית ה AI יכולה לתמוך ולקדם את נושא החדשנות ואת היתרון התחרותי של הארגון.

יחד עם היתרונות הרבים שלה, על הארגון להתמודד עם הסיכונים שלה ולהשקיע משאבים בהקטנתם. עליו להבטיח יישום תהליכי משילות נתונים שיבטיחו את איכותם, ליישם את הרגולציות החלות על הנתונים, לפעול באופן אקטיבי להבטיח את השימוש האתי והנאות בנתונים. עליו לגבש תפיסת משילות נתונים וארכיטקטורת נתונים כוללת.

כדי להבטיח יכולת גידול בכמות הנתונים ולכן פתרון מבוסס ענן חייב להיות חלק מהפתרון. מחקרים רבים מצביעים על נושא הנתונים כעל אחת הסיבות לכישלון יישומי AI. כמו שמנוע לא פועל בלי דלק, יישום AI לא יצליח בלי משילות והניהול הנתונים!!

 

댓글


bottom of page