این روزها اگر به دنبال عبارات فارسی در گوگل باشید به احتمال زیاد با سایتهای تبلیغاتی و اسپم فارسی برخورد کرده اید. البته بحث یکی دو روز یا یکی دو ماه نیست و مدتهاست که کاربران فارسی زبان از مشاهده سایتهای اسپم در نتایج جستجو در گوگل ناراضی هستند و در وبلاگ های فارسی بارها  نظرات کاربران در اینباره منعکس شده است. گوگل نیز از تلاش برای حذف این سایتها سخن گفته و اگر چه هر از چند گاهی چند سایت  اسپم از نتایج  گوگل حذف شده اند اما همواره سایتهای دیگری جایگزین شده اند. در واقع مشکل اصلی را باید در الگوریتم رتبه بندی گوگل دید چرا که این موضوع آزاردهنده در جستجوگرهای دیگر کم رنگ تر است. نگاهی دقیق تر به نتایج جستجوی عبارات فارسی در گوگل حقایقی از شیوه رتبه بندی گوگل و دلیل وجود سایتهای اسپم در صفحات اول نتایج گوگل را برای ما روشن میکند که به برخی از آنها که به نظرم رسیده در ادامه اشاره خواهم کرد. اما لازم است قبل از اشاره به شیوه فعالیت سایتهای اسپم داشته باشم در بسیاری از موارد این سایتها با استفاده از لیستی از کلمات کلیدی صفحاتی با عنوان و آدرسی که این کلمات کلیدی در آنها وجود دارند ساخته و آنرا با محتوایی تکراری و یا یک کپی از نتایج جستجو در گوگل پر میکنند و در نتیجه با بهره گیری از وجود دقیق عبارات جستجو شده توسط فارسی زبان در محتوای صفحات خود موقعیت مناسبی در نتایج گوگل به دست می آورند. از طرفی نیز شاهد سایتهای نیازمندیها هستیم که آنها نیز در واقع از محتوای آگهی کاربران خود و گاهی محتوای اگهی های کاربران دیگر سایتها و تلاش در جهت درج صدها کلمه کلیدی و لینک در صفحات سایت خود به دنبال کسب موقعیت برتر در نتایج جستجوی گوگل هستند و متاسفانه نقصهایی در سیستم رتبه بندی گوگل باعث شده است کاربران همچنان شاهد اینگونه سایتها در صفحات اول نتایج جستجو در گوگل باشند. اما این نقصها چیست؟

1.اهمیت بسیار زیاد به آدرس صفحات
اگر دقت کرده باشید در بسیاری از مواقع سایتهای اسپم فهرست شده در نتایج جستجو دقیقا عبارات خاصی را در آدرس صفحات URL دارند. به نظر می رسد که گوگل توجه زیادی به وجود کلمات کلیدی در URL صفحات دارد و همین مسئله از چشم اسپمرها دور نمانده و آنها نیز هر آنچه که میتوانند در آدرس صفحات قرار میدهند و یا هزاران صفحه که فقط کلمات کلیدی در آدرس آنهاست می سازند. همین امروز اگر در گوگل یک عبارات خاص و غیرمعمول ( مثلا نام یک فرد) را جستجو کنید سایتهایی که در آدرس صفحات خود این عبارت را دارند در موقعیت بالاتری از سایتها یا وبلاگهایی که   فقط در محتوای خود این عبارت را دارند ولیکن معتبرتر هستند قرار می گیرند.

2. توجه زیاد به تکرار کلمات و یا وجود دقیق عبارات در صفحه
اگرچه میزان چگالی کلمات در محتوا معیاری معمول در موتورهای جستجو جهت رتبه بندی است اما به نظر میرسد که دیگر این معیار کارآمد نیست و اسپمرها با تکرار دهها باره کلمات کلیدی مد نظر خود در محتوا سعی در افزایش رتبه و ارتباط محتوای صفحات سایت خود با کلمات کلیدی مورد جستجوی کاربران دارند.

3.عدم اهمیت به موقعیت واقعی یک صفحه یا سایت
فقط کافیست در مورد برخی از سایتهایی که بارها در نتایج جستجوی عبارات فارسی در گوگل می آیند کمی تحقیق کنید و مثلا تعداد لینکهای موجود به آنها را بررسی کنید. برخی از این سایتها که پای ثابت اکثر نتایج گوگل هستند کمتر از ده یا حتی پنج لینک از دیگر سایتها و بخصوص سایتهای معتبر دارند. در واقع معیار تعداد لینکهای صورت گرفته به یک صفجه از دیگر سایتها که به نوعی به معنای محبوبیت و به رسمیت شناخته شدن آن صفحه است در گوگل کم رنگتر بوده و جای آنرا اهمیت بیشتر به آدرس صفحات و... گرفته است و با توجه به اهمیت  این معیار در جستجوگرهای دیگر (مانند بینگ) شاهد آن هستیم که سایتهای اسپم یا نیازمندیها در دیگر جستجوگرها کم رنگتر از گوگل است.  لازم به ذکر است که اگر چه گوگل در رتبه بندی سایتها به این معیار اهمیت می دهد اما همانظور که اشاره شد نتایج گوگل نشان میدهد که در نتایج جستجو ارتباط محتوای صفحات با عبارات جستجو شده (مثل وجود عبارت در آدرس صفحه) اهمیت بیشتری دارد.

شاید گوگل پیشرفتهای زیادی در الگوریتمهای رتبه بندی و تحلیل محتوایی صفحات انگلیسی داشته است اما با وجود نشانه هایی از پیشرفت در تحلیل زبان فارسی (مثل جستجوی همزمان کلمات مترداف یا مشابه فارسی) در گوگل همچنان این جستجوگر در تشخیص صفحات با اهمیت و مفید برای کاربران فارسی زبان خود موفق نبوده است و به نظر می رسد جستجوگرهایی که از الگوریتهای سنتی و شناخته شده رتبه صفحات استفاده می کنند حداقل در ارائه نتایج پاک تر (از حیث وجود سایتهای تبلیغاتی) موفق تر هستند.