مدیریت کراولرهای موتورهای جستجو

در این مقاله ما می خواهیم در مورد کنترل کراولر های موتور جستجو، بلاک کردن ربات ها، فرستادن آن ها به جا هایی که می خواهیم و محدود کردن آنها از جایی که نمی خواهیم به آن جا بروند، صحبت کنیم.

برای شروع، ما می خواهیم در مورد روش های کنترل ربات ها بحث کنیم، که شامل سه روش اصلی robots.txt، meta robots و تگ nofollow که کمتر ربات ها را کنترل می کند.

همچنین چند مورد دیگر نیز وجود دارد که ما نیز در مورد آن ها بحث خواهیم کرد، از جمله ابزار وب مستر (مانند Google Search Console) و کدهای وضعیت URL نیز صحبت خواهیم کرد. اما در ابتدا اجازه دهید که به سه روش اصلی که در بالا ذکر کردیم، بپردازیم پس با سئو تضمینی سایت همراه باشید.

همانطور که می دانید Robots.txt در yoursite.com/robots.txt قرار دارد، که به کراولر ها می گوید که اجازه دارند به کجا دسترسی داشته باشند و به کجا دسترسی نداشته باشند، اما گوگل و بینگ همیشه به محتوای این فایل احترام نمی گذارند. برای مثال بسیاری از ما ها خیلی واضح به ربات های موتور جستجو گفتیم که «هی، به این کاری نداشته باش» اما یک دفعه می بینید که همین URL را در نتایج نمایش می دهد، همه ی ما از این کار موتور جستجو تعجب می کنیم که چرا این اتفاق افتاده است. بعضی وقت ها موتور های جستجو مانند گوگل و بینگ فکر می کنند که بیشتر و بهتر از شما و سایت شما و اطلاع دارند و بهتر بلدند. آن ها فکر می کنند که شاید شما اشتباه کرده اید، و با خود فکر می کنند که «هی، لینک های زیادی وجود دارد که به این محتوا اشاره می کنند، کاربران زیادی از این صفحه و محتویات آن بازدید می کنند و به آن اهمیت می دهند، پس ممکن است که شما قصد نداشته باشید که جلوی ما را برای ایندکس کردن این صفحه بگیرید». هر چند شما بهتر در باره ی یک URL خاص و منحصر به فرد، واضح تر باشید، معمولا موتورهای جستجو بهتر به نظر شما احترام می گذارند. در صورتی وضوح شما کمتر باشد موتور های جستجو کمتر به آن احترام نمی گذارند، برای مثال شما می توانید به موتور های جستجو بگوید که«این دایرکتوری و هر چیزی را که پشت آن قرار دارد را بی خیال شو» در این صورت احتمال این که موتو های جستجو به این خواسته شما عمل کنند بسیار کم خواهد بود.

متا روبات ها Meta robots

داستان متا روبات ها Meta robots مقداری متفاوت است، آن ها به صورت منحصر به فرد در هدر صفحه ها نوشته می شوند، پس می توانیم گفت شما با تگ Meta robots تنها می توانید یک صفحه را کنترل کنید. این تگ به موتور های جستجو می گوید که آیا باید یک صفحه را وارد لیست ایندکس خود بکنند یا نه. موتور های جستجو معمولا به این روش احترام بیشتری می گذارند چون شما آن را منحصرا برای یک صفحه نوشته اید و گوگل و بینگ می خواهند به تگ Meta robots شما اعتماد داشته باشند.

نکته جالب راجب به meta robotها و robots.txt این است که گاهی این دو با هم کار می کنند و گاها نیز با هم کار نمی کنند و بسیاری از افراد افراد فعال در ضمینه سئو در این ضمینه گیج و نا امید می شوند.

برای مثال، ما یک صفحه مانند «blogtest.html» در دامنه خود داریم و می گوییم که «کراولر ها، شما اجازه ندارید که این صفحه را کراول کنید». خوب این روش خوبی است که اجازه ندهیم که این صفحه کراول شود، اما اجازه ندادن به ربات ها که یک صفحه را کراول کنند به این معنی نیست که موتور های جستجو این صفحه را در صفحه ی نتایج نشان ندهند.

خوب پس بیاید که اطمینان خود را دو برابر کنیم که این صفحه ما در نتایج جستجو نمایش داده نمی شود: پس ما تگ متا ربات را به صورت زیر قرار می دهیم:

<meta name="robots" content="noindex, follow">

بنابراین، “noindex، follow” به کراولر های موتور جستجو می گوید که آن ها می توانند پیوندهای مربوط به صفحه را دنبال کنند، اما آن ها نباید این مورد خاص را ایندکس کنند.

جواب این است که شما به موتور های جستجو گفتید که این صفحه را کراول نکند، و آن ها این کار را نکرده اند. اما با این حال آن ها هنوز آن را واردن تایج جستجوی خود می کنند. احتمالا آن ها توضیحات متا را حساب نکرده اند; ممکن است که آن ها به شما بگویند که «ما نمی توانیم توضیحات متا را به خاطر وجود فایل robots.txt سایت شامل قرار بدیم». دلیل نشان دادن این است که آن ها نمی توانند noindex را ببینند تنها چیزی مشاهده می کنند disallow است.

بنابراین، اگر واقعا بخواهید چیزی حذف شود، و کسی نتواند آن را در نتایج جستجو مشاهده کند، شما نمی توانید فقط یک کراولر را غیرفعال کنید. شما ابتدا باید متای «noindex» را بیان کنید سپس به آن ها اجازه دهید که آن را کراول کند.

خوب هر کدام از این عوامل عوارض جانبی نیز به همراه دارد. اگر بخواهیم پهنای باند کراولر ها را برای خود ذخیره کنیم Robots.txt عالی خواهد بود، اما لزوما این روش برای جلوگیری از نمایش یک صفحه در نتایج جستجو آیده ال نیست. و ما هم آن را توصیه نمی کنیم، اتقاقا زمانی تویتر همین کار را کرد. توتیر سعی کرد که نسخه های سایت خود که یکی از آن ها با www و نسخه دیگر آن بدون www بود را کانونی سازی کند، آن ها سعی کردند که به گوگل بگویند دیگر نسخه www سایت را کراول و ایندکس نکنند، اما بعدا فهمیدند که گوگل هنوز هم نسخه همراه با www را در نتیج نمایش می دهد. خوب، بعد از آن فهمیدند کراول نکردن صفحه ها تنها کافی نیست و باد شروع به کانونی سازی صفحه ها با استفاده از rel canonical و 301 redirect کردند.

Meta robotها می توانند به اجازه کراول کردن و دنبال کردن لینک ها(link-following) را بدون ایندکس کردن بدهند، ولی این روش نیازمند بودجه ای برای کراولر ها است(هر سایتی به اندازه ای مشخصی از طرف موتور های جستجو کراولر دریافت می کند) و همچنین شما هنوز هم می توانید لیست ایندکس ها خود را حفظ کنید.

منبع :

https://unsplash.com/@ericabass7

https://www.evernote.com/shard/s619/sh/e8e514ab-c3fe-22ec-d652-989c0b156619/69b9a2277abd7033464a738c5de610cb

https://www.liveinternet.ru/stat/guaranteedseo.ir/

https://coub.com/ericabass7

https://3dwarehouse.sketchup.com/user/4c990e56-bbd7-412a-85e1-3852c2f89c47/Erica-B

https://seekingalpha.com/user/55188870/comments

https://lionofviennasuite.sbnation.com/users/EricaBass7

https://www.spreaker.com/user/15532666

https://justpaste.it/37sgm

https://www.atlasobscura.com/users/ericabass7

https://trello.com/ericabass7