how-search-works

איך פועל מנוע חיפוש? מדריך בסיסי למתחילים

מנועי החיפוש הראשונים באינטרנט היו פשוטים יחסית, ועם זאת הם איפשרו למצוא את המידע הנחוץ לנו. רק כאשר גוגל הגיע לעולם ב-1998, קיבלנו את מנוע החיפוש החדשני ביותר, שנשאר כך גם כיום, למרות שיש לו 30 מתחרים בערך. כיצד הוא עובד?

המאמר הוא חלק מחומרי הלימוד בקורס קידום אתרים מבית Askpavel Academy

לעיתים יש נטייה לחשוב שכאשר אנו מבצעים חיפוש כלשהו בגוגל (או בכל מנוע חיפוש אחר), המנוע "רץ" על כל דפי האינטרנט בזמן אמת. למעשה, מדובר בתהליך קצת יותר מסובך וארוך – אבל אנחנו נפשט ונפרק אותו לשלושה חלקים קלים להבנה: סריקה של עמודי אינטרנט, הוספת העמודים לאינדקס ולבסוף מיון העמודים בתוצאות החיפוש.

שלב 1 – סריקה

בשלב זה מנוע החיפוש מגלה דפי אינטרנט חדשים, או עדכונים שבוצעו בדפים קיימים. שלב זה נקרא גם "זחילה" (Crawling), מכיוון שמדובר בבוט "עכביש" (Spider) שלמעשה "זוחל" דרך העמודים והקישורים הנמצאים בהם. שלב הזחילה מתבצע כל הזמן, בלי קשר לשאלה מתי משתמשים מבצעים חיפוש בפועל.

העכבישים של מנוע החיפוש נמצאים כל הזמן ב"מרדף" אחר דפי אינטרנט – בין אם מדובר בדפים חדשים לחלוטין, ובין אם מדובר בעדכון של דפים קיימים. את כל אלו סורקים העכבישים, על מנת שלמנוע החיפוש תהיה גישה למאגר המעודכן ביותר שיש עבור דפי אינטרנט.

אילו תכנים נסרקים במנועי חיפוש?

ברמת העיקרון, מנוע חיפוש אמור לסרוק כל סוג של תוכן – אבל בפועל יש הבדלים קטנים בין הסוגים השונים. התוכן שנסרק בצורה היעילה ביותר הוא HTML הכולל טקסט חי. תמונה היא סוג תוכן קצת פחות מובן, אז נדרשת יותר השקעה כדי להבין אותה, לצד גורם מזהה נוסף שנקרא Alt Text. סרטונים הם כנראה מעבר ליכולת הסריקה הנוכחיות של מנועי חיפוש, ולכן תמיד עדיף לתמלל אותם לטקסט חי.

תוכן מסוג ג'אווה סקריפט נסרק יחסית טוב בגוגל (לטענת החברה), אבל בפועל עדיין יש בעיות בסריקת JS שמקשות על זיהוי של אלמנטים מסוימים. גוגל עובדת על הנושא הזה באופן תמידי, ומשפרת את יכולות הסריקה והאינדוקס של ג'אווה סקריפט.

מהי תדירות הסריקה של מנועי החיפוש?

שאלה זו תלויה במספר גורמים – מהי תדירות הסריקה שהוגדרה כברירת מחדל על ידי יוצרי המנוע; מהו תקציב הזחילה שגוגל הקצה עבור אתרים מסוגים מסוימים וכן הלאה. השילוב של כל הפרמטרים הללו, מגדיר את תדירות הסריקה – יש אתרים שגוגל "בא לבקר אותם" כל כמה שניות (בעיקר אתרי גדולים, כגון חדשות), ויש אתרים שגוגל סורק אותם פעם בכמה שבועות או אפילו חודשים.

מנהל / מקדם האתר יכולים להשפיע על תדירות הסריקה בשל גוגל, על ידי אופטימיזציה של תקציב הזחילה (Crawl Budget). כמו כן ניתן לשלוח דף אינטרנט לסריקה באמצעות כלי בדיקת ה-URL בקונסולת החיפוש של גוגל, או לשלוח מפת אתר שלמה לסריקה.

איך מוודאים שגוגל סורק את האתר שלי?

פשוט מאוד, מקלידים בתיבת החיפוש את הביטוי :site יחד עם כתובת הדומיין (בלי רווחים):

site:askpavel.co.il

כל הדפים שגוגל מציג בתוצאות בתגובה לשאילתה הזו (במקרה זה 17,400 דפים), הם הדפים שנתגלו בסריקה ונוספו לאינדקס (על כך נרחיב בשלב 2). כדי לקבל את כל הדפים, כולל דומיינים משניים (Sub-domains) – מומלץ להסיר את www מהשאילתה ולבדוק רק את דומיין השורש. אם גוגל לא מציג שום דף בתגובה לשאילתה הזו, משמע שהוא לא סרק ולא הוסיף שום דף לאינדקס, וצריך לברר מדוע (האם האתר חסום? האם גוגל עדיין לא ביקר באתר לראשונה?)

כמה דפים יש באינדקס של גוגל

כדי לראות מתי הייתה הפעם האחרונה בה גוגל סרק את הדף, נחפש שאילתה מסוג חדש:

cache:askpavel.co.il

כעת נקבל את הדף כפי שגוגל רואה אותו, יחד עם תאריך הסריקה האחרון (מצוין בראש העמוד).

שלב 2 – אינדוקס

אחרי שהדפים נסרקו, מנוע החיפוש שולח אותם לשמירה באינדקס. אפשר לומר שהאינדקס הוא פשוט הספרייה בה נשמרים כל דפי האינטרנט שנסרקו על ידי מנוע החיפוש.

הדפים נשמרים באינדקס בהתאם למצבם בתאריך הסריקה האחרון; אם עשיתם שינויים שתי דקות אחרי שגוגל כבר סרק את העמוד – תצטרכו לחכות לסריקה הבאה כדי שהשינויים יופיעו באינדקס (באמצעות פקודת cache שהוזכרה בשלב הקודם). לחילופין, אפשר "לאלץ" את גוגל לחזור לסריקה מחודשת באמצעות קונסולת החיפוש (ראו סעיף קודם).

האם אפשר לקבוע מה ייכנס ולא ייכנס לאינדקס?

ניתן לעשות זאת באמצעות תגית <meta name="robots" content="noindex, nofollow" />

זוהי תגית מסוג meta המוצבת בראש העמוד. התגית תיידע את מנועי החיפוש לא להוסיף את העמוד לאינדקס שלהם, באמצעות הפקודה noindex (הפקודה הנוספת, nofollow, מיועדת רק לקישורים הנמצאים בעמוד).

הפקודה robots בתוך התגית מיועדת לכל מנועי החיפוש. אם נרצה לחסום אינדוקס של מנועי חיפוש ספציפיים, נכתוב את שמם במקום הביטוי robots. כך זה ייראה, לדוגמה, אם נרצה לחסום את האינדוקס רק בגוגל:

<meta name="googlebot" content="noindex"‎>

האם אפשר להסיר עמודים שכבר נכנסו לאינדקס?

אפשר לעשות זאת בכמה דרכים:

  • שינוי קוד השרת של העמוד לקוד 404 או 410 או קוד מסוג 500 – קודים מסוג זה אומרים למנועי החיפוש שהעמוד כבר לא קיים או לא רלוונטי או שהשרת נפל. לאחר זמן מה, העמוד יוסר מהאינדקס. קוד 404 נוצר אוטומטית כאשר מוחקים עמוד קיים.
  • ביצוע הפניה של עמוד אחד לעמוד אחר (קוד שרת 301, 302, 307) – כאשר מבצעים הפניה של עמוד א' לעמוד ב', בסופו של דבר עמוד א' ייעלם מהאינדקס.
  • הסרת העמוד באופן זמני באמצעות כלי הסרת ה-URL בקונסולת החיפוש של גוגל.

שלב 3 – מיון

השלב האחרון הוא מיון דפי האינטרנט שנמצאים באינדקס, והצגתם כתוצאות חיפוש בהתאם לשאילתה נקודתית. זהו בעצם השלב בו פועלים האלגוריתמים החכמים של גוגל, וממיינים את דפי האינטרנט בהתאם לשאילתה שהוקלדה.

לדוגמה, אם מישהו חיפש "נעלי ספורט ברמת גן" – זה התהליך שמתרחש (תוך שבריר שנייה):

  • גוגל נכנס לאינדקס, בו שמורים טריליונים של דפי אינטרנט שנסרקו כבר בשלב 1.
  • בהתאם לשאילתת החיפוש שהוקלדה על ידי המשתמש, גוגל מוצא בתוך האינדקס את דפי האינטרנט שעוסקים אך ורק בנושא השאילתה (כלומר, רק דפים שרלוונטיים לביטוי "נעלי ספורט ברמת גן").
  • האלגוריתמים של גוגל בוחנים אילו דפים הכי רלוונטיים והכי איכותיים, בהתאם לשאילתה, ומציבים אותם בסדר יורד בתוצאות החיפוש. החלוקה היא לעשר תוצאות בכל עמוד – מהתוצאה הראשונה ועד העשירית; מהתוצאה ה-11 עד תוצאה 20 וכן הלאה.

בצורה כזו אנו מקבלים עשר תוצאות, הממוינות בהתאם להגדרות ולפרמטרים באלגוריתם החיפוש של גוגל. בכל פעם שאנו מבצעים שינוי בדף קיים או מוסיפים דף חדש, גוגל משקלל מחדש את תרומת הדף – ומציב אותו במיקום חדש בהתאם לשינויים.

המיקום בתוצאות החיפוש תלוי במאות (ואולי אף באלפי) פרמטרים שונים – תוכן, קישורים, התנהגות המשתמש, ראנק בריין (הבינה המלאכותית של החיפוש בגוגל) וכן הלאה. ככל שנשקיע יותר בעמוד עצמו ובסיגנלים החיצוניים הרלוונטיים, כך יגדלו הסיכויים שלו להגיע למיקום גבוה יותר בגוגל.

לסיום

מנועי חיפוש הם מכונות מתוחכמות, חלקן יותר וחלקן פחות. נכון להיום המנוע החכם ביותר שייך לחברת גוגל, שמשקיעה רבות באלגוריתמים מתוחכמים ובינה מלאכותית, במטרה לספק את התוצאות הטובות והרלוונטיות ביותר לכל חיפוש.

ככל שתדעו יותר על אופן פעולתם של מנועי חיפוש, כך תוכלו להתאים את האתר שלכם לדרישות ולקבל נראות גבוהה יותר בתוצאות החיפוש.

רוצים לתת לאתר שלכם עדיפות בתוצאות האורגניות? הירשמו לקורס קידום אתרים מבית Askpavel Academy

סרטון של גוגל: כיצד פועל החיפוש (אנגלית, 3:14 דקות)

שתפו את המאמר

Share on facebook
Share on twitter
Share on linkedin
Share on email
Share on whatsapp

מאמרים נוספים שיעניינו אותך

השאר תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *