יום שישי, 22 בינואר 2016

מחקר - גוגל יודעים אם התוכן שלכם טוב או לא ללא צורך בפרמטרים חיצוניים

בסוף נובמבר פורסם מאמר ב-searchengineland שחשף מחקר שנכתב על ידי קבוצה בתוך גוגל, מחקר שמעיד על שיטה פורצת דרך לחישוב מדדי אמינות על בסיס נכונות העובדות שבתוך תוכן ומתן "Trust Rank" בצורה מדויקת של עד 85% מהמקרים ללא צורך במדדים חיצוניים כמו למשל קישורים חיצוניים. החלטתי לקחת את המחקר הזה ולחקור את ההשלכות של שיטת המיון הזו במיוחד בקשר ישיר לאופן שבו גוגל מבחינים בין אמינות של ישות אינטרנטית לבין האמינות של התוכן אותה ישות מפרסמת.

אמ;לק

סיכום של המאמר הנוכחי לעצלנים מביניכם שרוצים את השורה התחתונה כי יש להם יכולת ריכוז של ילד בן 5:

  • עובדות נכונות ומדויקות שמופיעות בתוכן משפרות את ציון האמינות של התוכן וגם משפרות את מדד האמינות של "הישות" האינטרנטית המפרסמת את התוכן.
  • מספר קטן של עובדות בתוכן אינו אומר שהתוכן אינו אמין, אך סביר שאם המתחרים שלכם מפרסמים תכנים מלאי עובדות המעשירות אותו ואת הקורא הם יהנו מיתרון במדדי האמינות שאתם לא.
  • המחקר מציע פתרון יעיל יותר למשיכת מידע מתוך התוכן בצורה שמפחיתה את מספר הטעויות שהאלגוריתם מבצע ובכך להניב תוצאות מדויקות הרבה יותר מה שנבדק לאחר מכן השוואתית מול גורמים אנושיים
  • ציון אמינות על בסיס תוכן בלבד או בקיצור (KBT) מחושב עם אחוזי הצלחה די מרשימים של 85% ללא צורך בסיגנלים חיצוניים כלל כגון קישורים או מדדים שונים כמו PR. 
אני אתן פה Disclaimer קצר: ייתכן וחלקכם יקפצו למסקנה שמה שכתוב במחקר של הקבוצה בגוגל כבר מיושם באופן מלא או בחלקו בתהליך חישוב מדדי האמינות, מהאופן שבו כתוב המחקר ובמיוחד מהחלק בסופו של המחקר שנקרא "related work" ניתן להסיק שעבודה זו עדיין בפיתוח ושיש למפתחים עוד עבודה לפניהם, מה שכן חשוב להבין שזה הכיוון שגוגל מתפתחים בו, והמנוע הסמנטי "מנוע של רעיונות ולא של מילות מפתח" לא רחוק מאיתנו, האמת כבר בחלקים גדולים ממנוע החיפוש הוא כבר כך. 

שימושים פרקטיים ממסקנות המחקר:

  1. הדרך היעילה ביותר לקבל ציון KBT גבוה - יצירת תוכן מגוון, ארוך ומושקע שבאמת נועד להעשיר את הקורא או המשתמש שלכם, תוכן עשיר בעובדות ומקורות חיצוניים שמבוסס על כמויות מידע גדולות.
  2. תוכן שכנראה לא יקבל ציוני KBT גבוהים - תוכן שמופיעות בו מספר קטן של עובדות, ייתכן ותוכן קצר עד 1,000 מילים או שהעובדות המופיעות בו אינן ניתנות לאישוש בשום מקום. בדרך כלל מאמרים כלליים או מדריכים לא מעמיקים במיוחד.
  3. תוכן שיאבד מציוני הKBT שלו ואף ייחשב כמקור ידע לא אמין - תוכן שמופיעות בו עובדות שגויות או מטעות בכוונה, למשל אתרי רכילות למיניהם או צהובונים וכו'
ישנה עובדה חשובה מאוד שעליכם לזכור:

בעידן של היום קל מאוד לבלבל בין אמינות וסמכותיות לבין פופולריות, במיוחד אנשי SEO ומשווקי אינטרנט שחושבים שאם תוכן מקבל הרבה שיתופים או הרבה קישורים משמעות הדבר שהתוכן אמין וטוב לגולש, יש אבחנה מאוד ברורה באופן שבו גוגל מדרג אתרים על בסיס אמינות וסמכותיות מאשר פופולריות של נושא מסוים או תוכן מסוים. תוכן ויראלי אין משמעותו שזה תוכן אמין. 

ניתוח המחקר


בספטמבר פרסמתי מאמר שסוקר את הפטנט של גוגל לדירוג "ישויות" אינטרנטיות על בסיס חישוב ציוני "אמינות" שהישות מקבלת. באותו מאמר גם ציינתי את הצורה הבסיסית והמוכרת של מדדי אמינות שמחושבים על ידי קישורים המתקבלים מגרעין של אתרים הנחשבים אמינים במיוחד והקרבה אליהם, עדיין היה חסר החלק החשוב ביותר, איך גוגל בכלל יודעים שהתוכן שמפורסם על ידי היישות אמין?

אין זה חדש שגוגל מפתחים שיטות לביסוס אמינותם של עובדות בתוך מאמר כחלק מהאופן שבו הם מנתחים סמנטית תוכן כמו למשל בפטנט שלהם לחילוץ עובדות מתוך תכנים. וזה לא חדש שתכנים בסגנון של "ויקיפדיה" מקבלים ציוני אמינות מאוד גבוהים במיוחד בשאילתות הנוגעות לאינפורמציה, תכנים הבנויים בצורה מחקרית עם קישורים למקורות המידע ידועים כתכנים מבוססים מאוד ובעלי אמינות גבוהה ברוב המקרים. המאמר החדש שצץ השנה שופך אור על האופן שבו גוגל יכולים להסיק כמה מידע אמין על פי העובדות המופיעות בו ואף לדייק כמעט ב 85% מהמקרים. 

נכונותן של עובדות מקנה ציוני KBT גבוהים

קבוצה בגוגל פרסמו מאמר השנה בשם: "אמינות על בסיס ידע: הערכת ציוני האמינות של מקור תוכן". מאמר זה מראה באופן מפורט דרך לחילוץ מידע וחישוב אמינות בצורה מדויקת להפליא ללא צורך בפרמטרים חיצוניים כגון, קישורים. במונחים פשוטים יותר משמעות הדבר היא שאם התוכן שלכם עשיר בעובדות נכונות אודות נושא המאמר כאלה שצפוי שיופיעו בו, המאמר יקבל ציון אמינות גבוה יותר.

המשמעויות העתידיות של הטמעת אלגוריתם כזה במנוע החיפוש הן מטורפות במיוחד לאור העובדה שחלק מהאלגוריתם כבר מוטמע בכלים אחרים של גוגל הנועדו לשפר סמנטיקה וניבוי כמו "Google Prediction". כולנו קראנו על הבינה המלאכותית של גוגל ועל "Rank Brain" וגם במאמר הזה אנו נוכחים לראות פיתוח יוצא דופן שמאפשר לדייק בחישוב ציון אמינות עד כ85% מהפעמים לפני שהכנסנו למשוואה פרמטרים אחרים על ידי שיטת חילוץ מידע די מהפכנית שנקראת "knowledge triples".

כבר בפתיחת המאמר אנו יכולים לראות את האבחנה הבאה:



"ישנה חשיבות עצומה להערכה מדויקת של איכות עמודי האתר המופיעים בתוצאות החיפוש. עד היום הערכה זו התבססה על פרמטרים חיצוניים כגון קישורים הנכנסים למאמר או היסטוריית חיפוש של המשתמשים אך הפרמטרים הללו אינם מעידים על אמינות או איכות אלא רק על פופולריות, מקרים כמו האתר המוצג בדוגמא [16] (אתר רכילויות) שיש לו פייג' ראנק גבוה ואינו בהכרח אמין, לעומת אתרים אחרים שאין להם כמעט פייג' ראנק והתוכן בהם איכותי ואמין מאוד."

כבר בפתיחת המאמר אנו רואים אבחנה ברורה בין פופולריות לבין אמינות, לעיתים אנשי שיווק או מקדמי אתרים מבלבלים בין פופולריות לאמינות או סמכות, לייקים ושיתופים אינם מדד לסמכות או אמינות של המאמר אלא רק של פופולריות, ופופולריות אינה בהכרח תורמת להתקדמות או הופעה בתוצאות החיפוש תלוי בתחום שבו אתם עובדים.

גוגל עובדים מאוד קשה על פיצוח "הכוונה" שמאחורי השאילתות תוך התעלמות מניתוח טקסטואלי פשוט כמו בשנת 2006. אם התכנים שלנו יהיו באמת מועילים ביחס "לכוונת" המשתמש ציון האמינות שלנו יהיה גבוה הרבה יותר.

ישנה קורלציה ברורה בין רמת אמינות גבוהה וציון פייג'ראנק גבוה, חשוב לזכור שמדובר בקורלציה ולכן זה לא אומר שפייג'ראנק גבוה הוא הסיבה לרמת אמינות גבוהה או הפוך. פייג'ראנק הוא אחד מתשתיות הליבה של החיפוש בגוגל ופייג'ראנק גבוה יכול לתת לנו אינדיקציה טובה לחוזקו של אתר ואיכותו.

אם קראתם את הנוסחה של פייג'ראנק תוכלו לראות שמדובר ציון איכות שנקבע על ידי הצבעות אמון חיצוניות (קישורים) וככל שישנם יותר קישורים נכנסים כך ציון האיכות עולה. חשוב לזכור שאתרים אמינים וחזקים מחזיקים בציון איכות גבוה מאוד (PR גבוה) ושפייג'ראנק הוא חלק חשוב מאוד בחישוב האיכות של אתר.

מכיוון שלחוקרים אין יכולת לחשב "איכות" של תוצאות חיפוש הם הסתמכו על ציון האיכות שגוגל מחשבים, PR, והשתמשו בו כנקודת ייחוס במהלך המחקר. ברוב המקרים נראית קורלציה ברורה בין אמינות גבוהה וPR גבוה אך גם היו מקרים הפוכים.

PR גבוה מאוד וציון KBT  נמוך מאוד



במחקר נמבדקו אתרי רכילויות מאוד גדולים והחוקרים מצאו שכמעט כל האתרים הללו זוכים לציוני PR גבוהים במיוחד ולעומת זאת לציוני KBT נמוכים מאוד, ההסבר לכך הוא שאתרים אלו נחשבים כמאוד לא אמינים והמידע שמפורסם בהם אינו ממקור מהימן, ציוני KBT נמוכים מאוד נצפו גם באתרי פורומים, לדוגמא באתר התשובות של Yahoo נכתב שקת'רין זיטה ג'ונס נולדה בניו זילנד למרות שהערך הרשמי שלה בויקיפדיה מציין שהיא נולדה בוויילס.

PR נמוך מאוד לעומת KBT גבוה מאוד


מדדי הKBT הצליחו לדייק ב-85% מהמקרים בחישוב מדדי האמינות של אתרים שונים ללא שימוש בסיגנלים חיצוניים כמו קישורים או פרמטרים נוספים.


נראה ששיטת חילוץ וחישוב המידע במוצגת במחקר הנוכחי פורצת דרך, אנו יכולים לתאר רק מה יקרה כאשר ישלבו את השיטה הזו עם פרמטרים נוספים, כמו קישורים נכנסים, מדדי סמכות וחישוב רמת "הספאם" של אתרים). כמו כן KBT הוא רק פיתוח אחד של גוגל ונראה שפיתוחים נוספים הקשורים לחישוב מדדי האמינות הולכים ונעשים מדויקים יותר. מה שיקטין את היכולת של בעלי האתרים או מקדמי אתרים לבצע מניפולציות המבוססות על ניצול מערכת החוקים של האלגוריתם, בתעשיות תחרותיות בחו"ל המרווח למניפולציות כבר קטן.


לסיכום:
בשביל שנוכל באמת להיות אנשי שיווק טובים עלינו להבין שהדרך היחידה להתפתח ולגדול היא על ידי הפצת הידע והחכמה שלנו על גבי האינטרנט בכל פעולה שאנו עושים. בין אם מדובר בקמפיין, במאמר, בלקוח או באתר. רק על ידי מימוש הפוטנציאל המלא של המוצר, השירות או הרעיון, נוכל באמת להביא תוצאות אמיתיות לאנשים שבאמת צריכים אותן.