Google: הגיע הזמן לשלב הבא

PageRank, האלגוריתם של Google, מדרג אתרים ומאפשר לארגן את תוצאות החיפוש לפי הקשרים והקישורים בין אתרים שונים. כשחושבים על זה, בעצם מה ש-Google מציע לנו היום הו לא "רלוונטיות" אלא "פופולריות". הוא מקדם רייטינג, בדיוק כמו ערוץ 2.
כמה זמן נסתפק באתרים מהסוג שמופיע בשני העמודים הראשונים של תוצאות החיפוש? לא יותר מדי זמן, זה בטוח. בטלוויזיה, ערוץ 2 ודומיו מאבדים מכוחם לריבוי הערוצים, למכשירים כמו TiVO ו-yesMAX ולתוכנות שיתוף הקבצים. רבים מעדיפים להחליט בעצמם מה לראות ומתי. תחום החיפוש באינטרנט יתפתח כנראה בכיוונים דומים. יש אפילו מודלים שמנסים לנבא כיצד. אבל כשמנסים לרדת לפרטים מגיעים מהר מאד למסקנה שהפתרון טמון בטכנולוגיות שלא קיימות עדיין.
עוד על הנושא אפשר לקרוא בפוסט מבט מסוייט על העתיד בצל Google.

פרסם תגובה או השאר עקבות: Trackback URL.

תגובות

  • ראוטר   ביום 4 בפברואר 2005 בשעה 17:35

    ממתי אתה מבין בערוץ 2? לא עדיף להמשיך למחזר כתבות מלאות שגיאות מנט מגזין עם עצות להגברת מהירות גלישה?

  • מינוס אחד   ביום 4 בפברואר 2005 בשעה 23:36

    נדמה לי שהכיוון יהיה לפלח. גוגל ינסה לתת לך תוצאות לפי איך שהוא קורא אותך, לפי הקבוצה שהוא יסווג אותך, לפי הבחירות של אחרים שהוא ימצא שדומים לך.

  • עזי   ביום 5 בפברואר 2005 בשעה 3:55

    פופולריות לפעמים (אפילו לעיתים קרובות) מפיקה תכנים רלוונטיים – זו נקודה לטובת הגוגל שנעדרת, לצערי, מהרשימה שלך, שוקי. כלומר, בסופו של דבר, סביר שמה שמשתמשים/צורכים הרוב מספק את הסחורה. נכון – לא תמיד. נכון – לא לכל אחד. אבל בדרך-כלל זה עובד… לא?

    נקודה נוספת שנעדרת מהרשימה היא העובדה הפשוטה שגוגל מאפשר חיפוש *צירוף* של מילים, אם ברצף (על-ידי שימוש במירכאות) ואם כמילים בודדות – מה שמצמצם את התוצאות הפופולריות דווקא במימד הרלוונטיות.

    החסרון של שימוש בחיפוש על-סמך הרגל, נטיה, העדפה אישית, כפי שבאו לידי ביטוי בהיסטוריה אישית של חיפוש — באלוגריתם כמו שהזכרת — הוא הקיבעון בתוך מסגרת מוגדרת נוקשה, שמקשה על פריצת-דרך וגמישות לתכנים שונים ואחרים דווקא… לפעמים הפריצה מהמסגרת זה בדיוק מה שהיינו רוצים, לא? אותי אישית זה דווקא מרגיז ביישום דוגמת האמזון.

    פתרון לקראת שיפור משמעותי אפשרי של חיפוש ברשת — שעדיין רחוק מאד מהישג-יד — הוא דווקא בכיוון הסטאנדרטים (מה שחבורת קונספציה מנסה לדחוף לאחרונה). אילו היו לדפים/אתרים ברשת סטאנדרטים לא רק של פורמט ועיצוב, אלא גם של תוכן, הרי החיפוש היה הופך ליעיל בצורה מדהימה, לא? זה יביא משהו דומה למה ששיטת הקיטלוג של דיואי הביאה לחיפוש בין מיליוני ספרים!

    איך עושים את זה? איך משתלטים על התנהגותם של ביליון אנשים המפרסמים ברשת? כיצד תוכנה עשויה להירתם לעניין?

    את זה אני משאיר לך כאתגר, שוקי.

  • אורן   ביום 5 בפברואר 2005 בשעה 20:12

    הפייג' רנק לא פועל רק לפי פופולריות אלא משקלל (לפחות מנסה) לשקלל גם איכות על ידי חלוקה של אתרים לקבוצות של HUBS ו AUTHORITIES כלומר אתרים שמעלים את הדירוג של לינק שיוצא מהם כי הם "נחשבים". זה כמובן לא תמיד מצליח אבל העיקר הכוונה. דיון מסודר על האלגוריתם של גוגל הוא קצת עקר כי אין להם שום פרסום רשמי והכל לוט בערפל במכוון.

    עזי – יש נסיונות לכפות סטנדרטים של תוכן וזה בעצם חזון הרשת הסמנטית. יש ניסיונות "לכפות" סטנדרטים באמצעות תוכנה וזה בעצם הה שעוזים בIE, כריית טקסט ותחומים דומים. זו עדיין משימה כמעט בלתי אפשרית אבל זו רק דעתי העניה. כנראה שיש מספיק אנשים שחושבים אחרת ומממנים את הפרוייקטים האלו.

  • אבי   ביום 6 בפברואר 2005 בשעה 9:10

    מה שעשה את גוגל לפופולרי כל כך היא בדיוק העובדה שהוא מציע לכל המחפשים את אותן תוצאות החיפוש. כשמישהו מחפש את הסרט של פריס הילטון, הוא לא רוצה לקבל דף תוצאות חיפוש עם לינקים לאימפרית הילטון ולספרים שנכתבו עליה (ג'פרי ארצ'ר, אם אני זוכר נכון), אלא את הסרט. דירוג תוצאות חיפוש לפי פופולריות הבטיח למנוע החיפוש של יאהו תבוסה קולוסלית, ולגוגל – הנפקה מוצלחת.

  • אורן   ביום 11 בפברואר 2005 בשעה 10:06

    כמה הערות:
    רשתות נוירונים הן לא חזות הכל – יש עוד כמה אלגוריתמי למידה טובים ושימושיים לא פחות.

    כנראה שאין אף חוקר שיטען "כך עובד המח". רובם מודים שרשתות נוירונים וה"למידה" הטבעית שמבצע המח הן בגדר השערות בלבד – השערות שנגזרות בעיקר מהתופעה של עיבוי סינופסות (או דנדריטים או ווטאבר) בעקבות גירוי חיצוני שחוזר על עצמו מספר רב של פעמים.

    שאלת הזיוף – האם ניתן לבצע בזיוף בדיוק את אותה הסטטיסטיקה של המחבר המקורי? קופל טוען במפורש שזה כמעט בלתי אפשרי וניסיונות שנעשו לזייף כתבים כדי להטעות את האלגוריתם ניתפסו.
    אם אני לא טועה קופל דווקא לא השתמש הרשתות נוירונים והנה המאמר המקורי: http://www.cs.biu.ac.il/~koppel/papers/male-female-text-final.pdf

    אגב, יש אלגוריתמים המחברים מוזיקה של באך, נגיד ולאדם מן היישוב כלומר לא מוסיקולוג יהיה קשה לשים לב להבדלים. האם תוכנה תזהה את ההבדלים – שאלה מעניינת שהרי המוזיקה נכתבה גם היא על ידי תוכנה דומה.

  • גרי אפשטיין   ביום 4 בפברואר 2005 בשעה 13:19

    אני מאוד אוהב את ערוץ 2 וזה לא יפה מה שאתה אומר.
    מה רע בקצת "סיגליות" על הבוקר?
    לי זה עושה את היום.

  • שוקי   ביום 4 בפברואר 2005 בשעה 13:33

    אני לא מלכלך *על* ערוץ 2, אלא *ליד*.
    לא ראית רחוב סומסום? "זיק הגדול, הוא ולא אחר, יקפוץ מעל הערוץ עם הנר?". אתה בטח מתבלבל כי הייתה תקופה שפירסמו בערוץ הזה נר נשמה. לא נורא, העיקר שאתה אוהב את דיוויד ברוזה, שגם אמר "יהיה טוב, יהיה טוב כן, לפעמים אני נשבר".

  • שוקי   ביום 4 בפברואר 2005 בשעה 19:16

    על ערוץ 2 משלמים יותר.

  • שוקי   ביום 6 בפברואר 2005 בשעה 2:35

    החלוקה שעליה אתה מדבר בעצם מייצגת את הדור השלישי באלגוריתמיקה של מנועי חיפוש.
    הראשון בדק מופעים, השני שקלל אותם עם לינקים, והשלישי מעניק משקל למי שנותן את הלינק כדי להעניק משקל למי שמקבל אותו. יש גם טענות שיש דירוג למילים שונות באינדקסים, וגם שנאספים נתוני דירוג מ-Google Toolbar.
    אבל בסופו של דבר, כל הדברים האלה מחזירים אותנו לאותה נקודה: מה שמנועי החיפוש בני ימינו, כולל גוגל, מנסים לבדוק זה את דעתם של הגולשים על אתר מסוים. הפופולריות יכולה להיות כמה נכנסים אליו, כמה ומי מקשר אליו וכו', אבל עדיין מדבר בפופולריות.
    כשיהיה אלגוריתם שיוכל לזהות סקופ עיתונאי, המצאה חשובה, או טקסט שכתוב יפה, *זו* תהיה מהפכה.
    פריצת הדרך תבוא כנראה מאלגוריתמים כמו זה של פרופ' משה קופל, שידעו לנתח את התוכן.

  • גילעד   ביום 6 בפברואר 2005 בשעה 3:24

    באופן אולי אירוני, הטכנולוגיה שמשמשת את גוגל לבחירת הפרסומות שהיא מדביקה לדפי התוצאות שלה (ובאתרים שמשלבים את הטכנולוגיה שלה) מתקדמת יותר מהטכנולוגיה המשמשת אותה להביא לגולשים תוצאות. הרכישה של applied semantics הביאה לה טכנולוגיה לניתוח משמעות של טקסט והתאמתו לפרסומות. הרכישה של Kaltix אמורה לאפשר לגוגל לבצע חיפוש מותאם אישית לכל גולש, בהתבסס על היסטוריית הגלישה שלו, הפייבוריטס ועוד שאריות ממוחשבות. תוכנת החיפוש הדסקטופית שהיא הוציאה לפני כמה חודשים תשתלב, אני מאמין, במשווואה של "אני יודע מה נמצא אצלך על המחשב=אני יודע אלו תוצאות יספקו אותך", וכנגזר מכך גם הפילוח של הפרסומות יהיה מדוייק יותר.

    מאידך, למה אתה חושב שעתיד שבו מחשב ידע אם טקסט מסויים הוא שיר או רשימת מכולת הוא עתיד שטוב למין האנושי? כל עוד האמנות נוצרת עבור האדם, האדם הוא זה שאמור להעריך אותה, והשלב הראשון בהערכתו זו היא ההחלטה שמדובר בשיר ולא ברשימת מכולת. ברגע שנאבד את הבלעדיות הזו לא יהיה עוד טעם ליצירה, שכן היא תהפוך לנחלת הכלל (שהרי אם מחשב יכול לזהות מבנה של שיר, הוא יכול גם לכתוב אחד כזה). בעתיד כזה, גוגל באמת ימצא "הכל", אולם ה"הכל" הזה יהיה סינתטי. תן לנו עוד כמה שנים של יצירה שגוגל לא יכול למצוא.

  • שוקי   ביום 6 בפברואר 2005 בשעה 11:48

    קודם כל, אני לא זוכר שדיברתי בשום מקום על מה שטוב למין האנושי. הכי טוב למין האנושי, לדעתי, לקרוא הרבה ספרים, לבשל, ולעשות טאי צ'י. אבל, אפעס, יש לי הרגשה שזה לא תואם את המודל העסקי של גוגל.
    אני דיברתי על מה שטוב לגוגל, ועל מה שאנשים רוצים. שני דברים שלא בהכרח קשורים קשר הדוק לטובת המין האנושי.

    האם היכולת לזהות שיר שוות ערך ליכולת לכתוב אותו? ברור שלא גילעד. לכולנו יש את היכולת ליהנות מיצירות שאנחנו לא יודעים ליצור.
    באותו אופן, התוכנה של פרופ' קופל מאוניברסיטת בר-אילן, יודעת לומר לך, למשל, האם טקסט מסויים נכתב על-ידי הרמב"ם או לא. אבל היא לא יכולה לכתוב יצירות פילוסופיות והלכתיות.

  • גילעד   ביום 6 בפברואר 2005 בשעה 13:45

    אבל זה נשמע לי כמו יישום של pattern recognition עם רוטב neural networks. זו דרך אחת לנסות "להעניק" משמעות לטקסט הערום שהמחשב "רואה". הדרך של גוגל (לפחות כפי שהיא מסתמנת בעקבות הרכישות שלה וחלק מה-R&D) היא "פרסונליזציה הפוכה" – אם פרסונליזציה רגילה לוקחת תוכן קבוע ומתאימה אותו לגולש לפי הגדרתו, פרסונליזציה הפוכה שואבת מידע מהגולש (ללא התערבותו) ומציגה לו תוצאות שנגזרות ממשהו שאפשר לכנו תאולי "מערכת יחסים מקבילה" בינו לבין גוגל (כלומר כזו שבה גוגל שואב מידע על הגולש, במקביל לשימוש של הגולש בגוגל).

    ההבדל בין שתי השיטות הוא מידת החדירה לפרטיות. קטונתי מלחזור על זה (ובטח בפניך), אבל פרסונליזציה מוצלחת (בשיטה שתיארתי) כרוכה בשאיבת מידע מהגולש. בשיטה שתיארת (קופל) מדובר בהנחה ססטיסטית הנגזרת מצפיה בנצפים רבים וניסיון להשתמש בהנחות סטטיסטיות לגבי תיאור המידע שהם מבקשים (וזה, בסופו של דבר, הולך לפי הקו הנוכחי של "יותר אנשים קוראים את זה/מקשרים לזה/כותבים על זה=יותר אנשים מעוניינים בזה==>>התוצאות הללו יותר רלוונטיות ליותר אנשים [ולכן, סביר להניח, גם לך]).

    זיוף והעתקה הן שתי דוגמאות למצב שבו גוף (אדם/מחשב) שהצליח להגיע למצב שבו הוא יכול לדעת אם מדובר ביצירה מסויימת ובאיזה סגנון נכתבה, יכול ליצור אחת שכזו בעצמו. לזה התכוונתי לעניין הפסקה השניה שלך.

  • שוקי   ביום 8 בפברואר 2005 בשעה 2:24

    pattern recognition כמו voice recognition, OCRecognition ובעצם כל מערכת שמזהה אותות בעלי צורה משתנה, תהיה מבוססת תמיד על רשתות נוירונים. זו הדרך היחידה לחקות תפיסה של מוח, שמתבססת על מערכת עצבים אורגנית.
    כעיקרון, כל פרסונליזציה פסיבית עובדת לפי המודל שתיארת, כלומר בונה פרופיל לפי המידע שאתה מספק לה באופן פסיבי, ולכל היותר משדכת בינו לבין פרופילים דומים (בינה מלאכותית שימושית גם כאן).
    רוב מה שאמרת נכון, אבל הטענה שלך לגבי זיוף שגויה. אם יש לי מידע סטטיסטי שמאפיין טקסטים של הרמב"ם, זה לא מאפשר לי לכתוב פרק חדש במורה נבוכים. אלגוריתם שמנתח מאפיינים שונים של טקסט אבל לא "מבין" את התוכן שלו, לא יכול לייצר טקסט דומה מחדש.
    זיוף של חתימה, מבוסס על התפיסה הויזואלית שלה – הוא מייצר חיקוי ויזואלי שלא מאבד לכאורה שום דבר מהמידע שהיא כוללת. לפיכך, השיטות לזיהוי ביומטרי מבוסס חתימה, בודקות היום לא רק את המאפיינים הויזואליים שלה אלא גם מייצגות בווקטורים תלת-מימדיים את התנועה שיוצרת אותה (עוצמת הלחץ שהיד מפעילה). בכך היא בעצם משמרת מידע שהחתימה הדו-מימדית לא מציגה.
    מה שכן, עלית כאן על משהו – אלגוריתם שמנתח טקסט לא יבדיל בין טקסט בעל משמעות לטקסט בדוי שעומד באותם קריטריונים סטטיסטיים ואין לו כל משמעות.

כתיבת תגובה