אז כמה מקורות יש בגוגל ניוז
בחודש מרץ השנה השיקה ענקית החיפוש גירסה מקומית של שירות החדשות שלה. מאז זכה השירות לתשבוחות וגם לביקורות כאלה ואחרות שחלקן טרם נפתרו, אולם אין ספק כי מדובר בשירות שימושי (בעיקר כשכותבים בלוג על גוגל) שנופל רק במקצת מאחיו התאום.
בחלקו העליון של העמוד מתנוססת בגאווה ההצהרה “חיפוש ועיון ב-100 מקורות חדשות המתעדכנים ללא הרף“. יצאנו לבדוק כמה מקורות באמת יש לחדשות גוגל בעברית.
לצורך הבדיקה נאלצנו לרענן את ידיעותינו ב-ASP וגם בתחום ה-Regular Expressions. הנה שלבי הבדיקה והתוצאות:
ביצענו מספר חיפושים בגוגל חדשות עם מלות חיפוש קצרות: האות א, האות ב, האות ג, האות ה, האות ו, וביטויים א*, ה* וישראל, מתוך הנחה כי בדרך זו נקבל את מירב התוצאות.
מתוך התוצאות ניפינו את כל שמות המתחם שכוללים את google.com ו-google.co.il.
החיפושים בוצעו פעמיים עם מחרוזת זהה, מה שהפיק בכל פעם תוצאות מעט שונות.
בספירת המקורות מספר מקורות נספרו פעמיים, מאחר וגוגל מתייחס ל-URL שונה ולא לשם המתחם. כך, למשל, sports.nana.co.il ו-net.nana.co.il נספרו כשני מקורות שונים.
והתוצאה היא: 136 מקורות חדשות בכתובות אלה