Парсинг поисковых систем

Yahoo! Logo

Обычно поисковые системы не позволяют себя парсить простым смертным. Например, великий и ужасный Google банит айпишник на несколько часов, если делать запросы слишком часто. А еще гугл иногда выдает свою аццкую капчу, и иногда меняет форматирование своей выдачи, что осложняет жизнь нашим коллегам.

Однако, есть и дружелюбные поисковики, которые вполне официально разрешают себя парсить. Всего лишь надо зарегистрировать аккаунт на Yahoo, получить app id key и настроить свой парсер, благо API под него доступно там же на самых популярных языках программирования.

Никаких пауз между запросами, никакой подделки юзерагента или сбрасывания cookie делать не надо, все работает быстро и надежно. Выдачу можно забирать в XML, что значительно упрощает парсинг. Однако не стоит забывать, что в термсах Yahoo прописаны ограничения: не более 5000 запросов с одного IP. Как видите, ничто не запрещает использовать все доступные IP адреса для получения желаемого результата.

Как вытащить домен из бана поисковой системы

Google Logo

Yahoo мои домены не убирал из выдачи ни разу, за что ему большое спасибо. Больше всего неприятностей доставлял бан доменов в Google и MSN.

Официальный способ разбанивания доменов в Google – это написать reinclusion request в Google Webmaster Tools. Этот способ реально работает, и он не самый быстрый. Гугловцы рассматривают эти заявки по нескольку месяцев, и результат не гарантирован. Вообще, очень плохо, что в своих хваленых инструментах для вебмастеров Google не показывает причину бана домена, что же именно привело его к блокированию; поэтому приходится придумывать самые разные причины, и описывать их в reinclusion request.

В начале 2007 года домен bloged.org оказался в бане Google и MSN. Я поменял контент, перенес домен к firstvds и решил на нем сделать блог. Идея оказалась удачной, MSN автоматически разбанил домен. А вот Google никак не отреагировал на смену контента, пришлось писать reinclusion request.

Прошло что-то около трех месяцев, гугл никак не хотел включать сайт в индекс. Тогда я написал о своей проблеме в Google Groups, и через 3 дня сайт начал индексироваться. В общем, у меня сложилось впечатление, что если написать о своей проблеме в Google Groups, то проблема решается намного быстрее.

Несколько раз слышал утверждение, что Google применяет амнистию к забаненым доменам. По-моему это миф, на своих доменах ни разу не видел такого.

Если написать письмо в гугл – они отвечают стандартной отпиской, с приблизительным текстом: “мы работаем с миллионами сайтов, и у нас нет возможности просмотреть каждый сайт отдельно”. Это означает, что ваше письмо ушло в /dev/null, толку от вашего сообщения нет вообще. Писать письма надо в Google Groups, только там люди из Google могут дать полуофициальный ответ.

Намного сложнее вытащить домен из бана MSN. Если причины, по которым банит Google, более-менее понятны, то причины Microsoft находятся вне пределов моего понимания. Несколько белоснежно-белых сайтов ушли в бан; а мой фид одной известной PPC находится в индексе – несмотря на запрет индексации через robots.txt.

Саппорт Live.com – это вообще отдельная песня. Я переписывался с ними 10 месяцев для того, чтобы вытащить один из своих доменов из бана.

Как я понял, у них там три уровня разборок с овнерами доменов. На первом уровне “специалисты” отвечают на сообщения клиентов, но в их компетенции я сомневаюсь. После того, как я написал тикет, горе-специалист с прикольным индейским именем долго отказывался передавать тикет тому, кто действительно может помочь – на том основании, что у меня для сайта не был создан robots.txt. 2 недели ушло на то, чтобы убедить саппорт в том, что отсутствие robots.txt не влияет на индексацию.

Дальше мой тикет передали в Microsoft Global Escalations, где чуть более компетентный сотрудник особо не напрягаясь меня вежливо послал ожидать окончания апдейта в их поисковой системе. Я на это дело повелся, ждал 4 месяца – разумеется, результат был нулевой.

Самый правильный способ вытаскивания домена из бана поисковой системы Live, это зарегистрироваться на их форуме для вебмастеров. Там есть адекватный человек, модератор, Brett Yount. Он один из немногих людей, который довольно быстро и точно могут сказать, забанен домен в MSN или нет; кроме того, он может подсказать, что делать дальше.

Brett Yount мне сообщил, что мой сайт был ошибочно определен как спам, и посоветовал написать тикет через Live Search Site Owner support form. И снова контакт с неадекватным специалистом из Microsoft, и снова передача тикета в Microsoft Global Escalations. Но на сей раз там попался вполне адекватный сотрудник, который передал мой тикет в Microsoft SPAM Team, где и разбанили мой домен.

Долго я этого ждал, но все таки смог победить эту тяжелую и неповоротливую бюрократическую машину в Microsoft, чего и вам желаю.