יום שישי, 22 בינואר 2016

מחקר - גוגל יודעים אם התוכן שלכם טוב או לא ללא צורך בפרמטרים חיצוניים

בסוף נובמבר פורסם מאמר ב-searchengineland שחשף מחקר שנכתב על ידי קבוצה בתוך גוגל, מחקר שמעיד על שיטה פורצת דרך לחישוב מדדי אמינות על בסיס נכונות העובדות שבתוך תוכן ומתן "Trust Rank" בצורה מדויקת של עד 85% מהמקרים ללא צורך במדדים חיצוניים כמו למשל קישורים חיצוניים. החלטתי לקחת את המחקר הזה ולחקור את ההשלכות של שיטת המיון הזו במיוחד בקשר ישיר לאופן שבו גוגל מבחינים בין אמינות של ישות אינטרנטית לבין האמינות של התוכן אותה ישות מפרסמת.

אמ;לק

סיכום של המאמר הנוכחי לעצלנים מביניכם שרוצים את השורה התחתונה כי יש להם יכולת ריכוז של ילד בן 5:

  • עובדות נכונות ומדויקות שמופיעות בתוכן משפרות את ציון האמינות של התוכן וגם משפרות את מדד האמינות של "הישות" האינטרנטית המפרסמת את התוכן.
  • מספר קטן של עובדות בתוכן אינו אומר שהתוכן אינו אמין, אך סביר שאם המתחרים שלכם מפרסמים תכנים מלאי עובדות המעשירות אותו ואת הקורא הם יהנו מיתרון במדדי האמינות שאתם לא.
  • המחקר מציע פתרון יעיל יותר למשיכת מידע מתוך התוכן בצורה שמפחיתה את מספר הטעויות שהאלגוריתם מבצע ובכך להניב תוצאות מדויקות הרבה יותר מה שנבדק לאחר מכן השוואתית מול גורמים אנושיים
  • ציון אמינות על בסיס תוכן בלבד או בקיצור (KBT) מחושב עם אחוזי הצלחה די מרשימים של 85% ללא צורך בסיגנלים חיצוניים כלל כגון קישורים או מדדים שונים כמו PR. 
אני אתן פה Disclaimer קצר: ייתכן וחלקכם יקפצו למסקנה שמה שכתוב במחקר של הקבוצה בגוגל כבר מיושם באופן מלא או בחלקו בתהליך חישוב מדדי האמינות, מהאופן שבו כתוב המחקר ובמיוחד מהחלק בסופו של המחקר שנקרא "related work" ניתן להסיק שעבודה זו עדיין בפיתוח ושיש למפתחים עוד עבודה לפניהם, מה שכן חשוב להבין שזה הכיוון שגוגל מתפתחים בו, והמנוע הסמנטי "מנוע של רעיונות ולא של מילות מפתח" לא רחוק מאיתנו, האמת כבר בחלקים גדולים ממנוע החיפוש הוא כבר כך. 

שימושים פרקטיים ממסקנות המחקר:

  1. הדרך היעילה ביותר לקבל ציון KBT גבוה - יצירת תוכן מגוון, ארוך ומושקע שבאמת נועד להעשיר את הקורא או המשתמש שלכם, תוכן עשיר בעובדות ומקורות חיצוניים שמבוסס על כמויות מידע גדולות.
  2. תוכן שכנראה לא יקבל ציוני KBT גבוהים - תוכן שמופיעות בו מספר קטן של עובדות, ייתכן ותוכן קצר עד 1,000 מילים או שהעובדות המופיעות בו אינן ניתנות לאישוש בשום מקום. בדרך כלל מאמרים כלליים או מדריכים לא מעמיקים במיוחד.
  3. תוכן שיאבד מציוני הKBT שלו ואף ייחשב כמקור ידע לא אמין - תוכן שמופיעות בו עובדות שגויות או מטעות בכוונה, למשל אתרי רכילות למיניהם או צהובונים וכו'
ישנה עובדה חשובה מאוד שעליכם לזכור:

בעידן של היום קל מאוד לבלבל בין אמינות וסמכותיות לבין פופולריות, במיוחד אנשי SEO ומשווקי אינטרנט שחושבים שאם תוכן מקבל הרבה שיתופים או הרבה קישורים משמעות הדבר שהתוכן אמין וטוב לגולש, יש אבחנה מאוד ברורה באופן שבו גוגל מדרג אתרים על בסיס אמינות וסמכותיות מאשר פופולריות של נושא מסוים או תוכן מסוים. תוכן ויראלי אין משמעותו שזה תוכן אמין. 

ניתוח המחקר


בספטמבר פרסמתי מאמר שסוקר את הפטנט של גוגל לדירוג "ישויות" אינטרנטיות על בסיס חישוב ציוני "אמינות" שהישות מקבלת. באותו מאמר גם ציינתי את הצורה הבסיסית והמוכרת של מדדי אמינות שמחושבים על ידי קישורים המתקבלים מגרעין של אתרים הנחשבים אמינים במיוחד והקרבה אליהם, עדיין היה חסר החלק החשוב ביותר, איך גוגל בכלל יודעים שהתוכן שמפורסם על ידי היישות אמין?

אין זה חדש שגוגל מפתחים שיטות לביסוס אמינותם של עובדות בתוך מאמר כחלק מהאופן שבו הם מנתחים סמנטית תוכן כמו למשל בפטנט שלהם לחילוץ עובדות מתוך תכנים. וזה לא חדש שתכנים בסגנון של "ויקיפדיה" מקבלים ציוני אמינות מאוד גבוהים במיוחד בשאילתות הנוגעות לאינפורמציה, תכנים הבנויים בצורה מחקרית עם קישורים למקורות המידע ידועים כתכנים מבוססים מאוד ובעלי אמינות גבוהה ברוב המקרים. המאמר החדש שצץ השנה שופך אור על האופן שבו גוגל יכולים להסיק כמה מידע אמין על פי העובדות המופיעות בו ואף לדייק כמעט ב 85% מהמקרים. 

נכונותן של עובדות מקנה ציוני KBT גבוהים

קבוצה בגוגל פרסמו מאמר השנה בשם: "אמינות על בסיס ידע: הערכת ציוני האמינות של מקור תוכן". מאמר זה מראה באופן מפורט דרך לחילוץ מידע וחישוב אמינות בצורה מדויקת להפליא ללא צורך בפרמטרים חיצוניים כגון, קישורים. במונחים פשוטים יותר משמעות הדבר היא שאם התוכן שלכם עשיר בעובדות נכונות אודות נושא המאמר כאלה שצפוי שיופיעו בו, המאמר יקבל ציון אמינות גבוה יותר.

המשמעויות העתידיות של הטמעת אלגוריתם כזה במנוע החיפוש הן מטורפות במיוחד לאור העובדה שחלק מהאלגוריתם כבר מוטמע בכלים אחרים של גוגל הנועדו לשפר סמנטיקה וניבוי כמו "Google Prediction". כולנו קראנו על הבינה המלאכותית של גוגל ועל "Rank Brain" וגם במאמר הזה אנו נוכחים לראות פיתוח יוצא דופן שמאפשר לדייק בחישוב ציון אמינות עד כ85% מהפעמים לפני שהכנסנו למשוואה פרמטרים אחרים על ידי שיטת חילוץ מידע די מהפכנית שנקראת "knowledge triples".

כבר בפתיחת המאמר אנו יכולים לראות את האבחנה הבאה:



"ישנה חשיבות עצומה להערכה מדויקת של איכות עמודי האתר המופיעים בתוצאות החיפוש. עד היום הערכה זו התבססה על פרמטרים חיצוניים כגון קישורים הנכנסים למאמר או היסטוריית חיפוש של המשתמשים אך הפרמטרים הללו אינם מעידים על אמינות או איכות אלא רק על פופולריות, מקרים כמו האתר המוצג בדוגמא [16] (אתר רכילויות) שיש לו פייג' ראנק גבוה ואינו בהכרח אמין, לעומת אתרים אחרים שאין להם כמעט פייג' ראנק והתוכן בהם איכותי ואמין מאוד."

כבר בפתיחת המאמר אנו רואים אבחנה ברורה בין פופולריות לבין אמינות, לעיתים אנשי שיווק או מקדמי אתרים מבלבלים בין פופולריות לאמינות או סמכות, לייקים ושיתופים אינם מדד לסמכות או אמינות של המאמר אלא רק של פופולריות, ופופולריות אינה בהכרח תורמת להתקדמות או הופעה בתוצאות החיפוש תלוי בתחום שבו אתם עובדים.

גוגל עובדים מאוד קשה על פיצוח "הכוונה" שמאחורי השאילתות תוך התעלמות מניתוח טקסטואלי פשוט כמו בשנת 2006. אם התכנים שלנו יהיו באמת מועילים ביחס "לכוונת" המשתמש ציון האמינות שלנו יהיה גבוה הרבה יותר.

ישנה קורלציה ברורה בין רמת אמינות גבוהה וציון פייג'ראנק גבוה, חשוב לזכור שמדובר בקורלציה ולכן זה לא אומר שפייג'ראנק גבוה הוא הסיבה לרמת אמינות גבוהה או הפוך. פייג'ראנק הוא אחד מתשתיות הליבה של החיפוש בגוגל ופייג'ראנק גבוה יכול לתת לנו אינדיקציה טובה לחוזקו של אתר ואיכותו.

אם קראתם את הנוסחה של פייג'ראנק תוכלו לראות שמדובר ציון איכות שנקבע על ידי הצבעות אמון חיצוניות (קישורים) וככל שישנם יותר קישורים נכנסים כך ציון האיכות עולה. חשוב לזכור שאתרים אמינים וחזקים מחזיקים בציון איכות גבוה מאוד (PR גבוה) ושפייג'ראנק הוא חלק חשוב מאוד בחישוב האיכות של אתר.

מכיוון שלחוקרים אין יכולת לחשב "איכות" של תוצאות חיפוש הם הסתמכו על ציון האיכות שגוגל מחשבים, PR, והשתמשו בו כנקודת ייחוס במהלך המחקר. ברוב המקרים נראית קורלציה ברורה בין אמינות גבוהה וPR גבוה אך גם היו מקרים הפוכים.

PR גבוה מאוד וציון KBT  נמוך מאוד



במחקר נמבדקו אתרי רכילויות מאוד גדולים והחוקרים מצאו שכמעט כל האתרים הללו זוכים לציוני PR גבוהים במיוחד ולעומת זאת לציוני KBT נמוכים מאוד, ההסבר לכך הוא שאתרים אלו נחשבים כמאוד לא אמינים והמידע שמפורסם בהם אינו ממקור מהימן, ציוני KBT נמוכים מאוד נצפו גם באתרי פורומים, לדוגמא באתר התשובות של Yahoo נכתב שקת'רין זיטה ג'ונס נולדה בניו זילנד למרות שהערך הרשמי שלה בויקיפדיה מציין שהיא נולדה בוויילס.

PR נמוך מאוד לעומת KBT גבוה מאוד


מדדי הKBT הצליחו לדייק ב-85% מהמקרים בחישוב מדדי האמינות של אתרים שונים ללא שימוש בסיגנלים חיצוניים כמו קישורים או פרמטרים נוספים.


נראה ששיטת חילוץ וחישוב המידע במוצגת במחקר הנוכחי פורצת דרך, אנו יכולים לתאר רק מה יקרה כאשר ישלבו את השיטה הזו עם פרמטרים נוספים, כמו קישורים נכנסים, מדדי סמכות וחישוב רמת "הספאם" של אתרים). כמו כן KBT הוא רק פיתוח אחד של גוגל ונראה שפיתוחים נוספים הקשורים לחישוב מדדי האמינות הולכים ונעשים מדויקים יותר. מה שיקטין את היכולת של בעלי האתרים או מקדמי אתרים לבצע מניפולציות המבוססות על ניצול מערכת החוקים של האלגוריתם, בתעשיות תחרותיות בחו"ל המרווח למניפולציות כבר קטן.


לסיכום:
בשביל שנוכל באמת להיות אנשי שיווק טובים עלינו להבין שהדרך היחידה להתפתח ולגדול היא על ידי הפצת הידע והחכמה שלנו על גבי האינטרנט בכל פעולה שאנו עושים. בין אם מדובר בקמפיין, במאמר, בלקוח או באתר. רק על ידי מימוש הפוטנציאל המלא של המוצר, השירות או הרעיון, נוכל באמת להביא תוצאות אמיתיות לאנשים שבאמת צריכים אותן.



7 תגובות:

  1. איזה כיף לראות מאמר ברמה כזו בעברית (ולא משוכתב)...
    אני מסכים שמאמר פופולרי לא מעיד על איכות ואמינות התוכן, אבל לצערי אני רואה שתוכן פופולרי זה מה שמביא לכניסות לאתר, שיתופים וכו', אז השאלה מה עדיף? - תוכן איכותי עם מעט מאוד חשיפה או תוכן פופולרי עם חשיפה רבה יותר?

    האם הדבר לא בא לידי ביטוי גם מבחינת המדדים, הרי תוכן שרבים מגיעים אליו, קוראים אותו ומשתפים אותו משפיע לחיוב על מדדי האתר, להבדיל ממאמר ארוך ואינפורמטיבי, שמביא ל-bounce rate גבוה, לא משותף כמעט ולא מושך מספיק על מנת לדרבן אנשים לקרוא אותו במלואו, אז השאלה היא מה עדיף? (אני יודע שאני לוקח שני מקרי קיצון, אבל לצערי זו המציאות בה אני נתקל).
    האם הרצון של גוגל בתוכן איכותי תואם את הרצונות של הגולשים, שלרוב לא מצליחים לעבור את הכותרות הראשיות (ע"ע אמ;לקים למינהם...)

    השבמחק
    תשובות
    1. היי תום שמח שנהנית מהמאמר, שאלותייך מעט מוזרות ואסביר למה. כשאתה כותב כניסות לאתר האם אתה מתכוון כניסות ממנוע החיפוש? במידה וכן אזי שפופולריות ושיתופים ברשתות חברתיות אינן רלוונטיות לדירוג העמוד בתוצאות החיפוש ולכן לא מובנת לי השאלה. וכשאתה כותב חשיפה על איזו חשיפה מדובר? הרי חשיפה של תוכן תלויה במפרסם שלו, אם מדובר על חשיפה בתוצאות החיפוש בגוגל אז התשובה מעלה זהה, זה לא רלוונטי לאופן שבו התוכן ידורג. בדרך כלל שמייצרים תוכן טוב עושים זאת במסגרת קמפיין ולכן דואגים שהתוכן יקבל חשיפה ראויה במגוון שלם של ערוצים שונים.

      תנועה הנכנסת לאתר אינה רלוונטית לדירוג האיכות של העמוד וזמן שהייה באתר הוא פרמטר זניח מאוד ואינו משפיע על דירוג העמוד אלא יותר על האופן שבו גוגל מנתח התנהגות גולשים ביחס לעמוד. כמו כן bounce rate שמופיע באנליטיקס הוא "סימפטום" ואינו "גורם" לירידה או הופעה של עמודים בתוצאות החיפוש ולכן גם הוא אינו רלוונטי לדירוג. הוא רלוונטי רק במקרים של back clicks מעמוד תוצאות החיפוש בגוגל וגם שם הוא ירד לזמן מוגבל במיקומיו.

      הרצון של גוגל הוא לשים תוכן שמשרת את המטרה שלשמה הוא נוצר ועונה על הכוונה האמיתית של המשתמש שהקיש שאילתא, בין אם מדובר בתוכן ארוך מאוד או רגיל. גם חשוב לא לנסות לעשות reverse engineering דרך "סימפטומים", הופעה של פרמטר מסוים ביחס למצב אינה מעידה על סיבה ותוצאה. העובדה שמאמר מקבל הרבה חשיפות בערוצים שונים ומופיע גבוה בתוצאות החיפוש אינן מעידות שחשיפות מביאות לדירוגים.

      הפרמטרים לדירוג איכות של עמודים הם מאוד ברורים ממליץ לך לקרוא (https://goo.gl/2yCFZ7)

      מחק
  2. קודם כל מאמר דלוקס, נהניתי לקרוא ולהחכים. קצת מוזר לי שמהלך כזה בוצע רק לאחרונה, הרבה אחרי עדכון פנדה שאמור לדעת בעצם מה זה תוכן איכותי.

    עוד נקודה שלא ברורה לי קשורה לפסקה הראשונה שלך:
    לחישוב מדדי אמינות על בסיס נכונות העובדות שבתוך תוכן ומתן "Trust Rank" בצורה מדויקת של עד 85% מהמקרים".

    טראסט ראנק קשור לקבוצה ראשונית של seed websites שנחשבים אמינים. איך וכיצד נוצר הקשר בין טראסט ראנק לבין איכות ואמינות התוכן?

    השבמחק
  3. היי עמית, תמיד נהדר לקבל פידבק ממך :). רק כדי לסדר את הדברים אתחיל ואומר שכנראה מדדי KBT עדיין לא מוטמעים ברמת החיפוש עצמו, לפחות לפי הכתוב במאמר המלא, כפי שציינתי בdisclaimer בחלקו העליון של המאמר כאן. התוצרים של אלגוריתם פנדה האימפקט שראינו מאלגוריתם פנדה משפיע על תוכן אבל הפונקציות המקוריות של פנדה מתייחסות למספר קישורים נכנסים, מספר חיפושי "שם מותג" ומספר אזכורים שונים (implied links) של המותג ועל ידי היחס ביניהם בשילוב עם גורמי דירוג אנושיים יוצרים "modifier" או "penalty" ברמת העמוד עצמו. כך שתוכן דל מקבל Penalty ותוכן איכותי מאוד מקבל "modifier" אבל בחישוב לא נעשה רק ברמת התוכן.

    כוונתי בTrust Rank למדד האמינות (KBT) של המאמר שפורסם, החוקרים משווים את יכולת מדידת האמינות שלהם לשיטות הקיימות ומנסים להראות שהשיטה שלהם יותר מדויקת כי הינה מבוססת על התוכן והעובדות שלו ולא על פופולריות, מדד אמינות זה הוא סוג של Trust Rank ולכן קראתי לו כך, במאמר הקודם שלי על דירוג על פי אמינות ליישויות אינטרנט אני מראה את החלק של הTrust Rank המקורי.
    תוכל לקרוא על זה כאן: http://www.ori-seo.com/2015/09/blog-post.html

    השבמחק
    תשובות
    1. אוקי, עכשיו הדברים ברורים.
      תמשיך לתת חומרים מושקעים כאלה, מרתק לקרוא את זה.

      מחק
  4. מאוד מעניין. בדיוק קראתי מאמר על הפקטור של איכות האתר - שגוגל מחשיבה מאוד היום. נגעו שם בנקודה חשובה, שגם דירוג האיכות של האתרים המקשרים אל האתר שלך משפיע על האיכות של האתר שלך בעייני גוגל. זה מתחבר לנושא האמינות, ממש רואים את השינוי בשיטת הדירוג של גוגל בכל הפרמטרים, זה הרבה יותר מורכב והרבה יותר במחשבה על הגולש ומתוך ראש של גולש.

    השבמחק