0

Сегодня и завтра у меня заканчивается очередная глубокая чистка ТОП Базы к регулярному бесплатному обновлению моим покупателям. Решила раскрыть подробнее для всех, кто работает - как я чищу базу.

Просто, чтобы были в курсе, почему так долго и что я при этом делаю, и, возможно, кому-то поможет при чистке своих собственных сборок.

Способы некоторые изобретены мной лично, другие просто очевидны. Если кто знает еще какие эффективные варианты чистки, поделитесь, пожалуйста. )

Чищу базу я с помощью Allsubmitter, но многое происходит автоматом только на первом этапе - при определении параметров сайтов в базе, остальное все вручную - открыть и посмотреть каждый сайт.

В среднем всего в каждую чистку я просматриваю 5-8 тыс. сайтов из моей ТОП Базы.

Первый этап чистки, самый простой и очевидный – на ответ сервера (HTTP код)

Выделяю нужную часть базы, захожу в раздел "Определить параметры сайтов". И выбираю для проверки параметр http код. Только предупреждение! Не прогоняйте сразу большое количество сайтов. Лучше всего партиями по 1-3 тыс. сайтов за раз. Иначе программа может зависнуть.

Определение параметров сайтов в базе при помощи Allsubmitter

Определение параметров сайтов в базе при помощи Allsubmitter

Основной ответ, успешный - 200. Другие, наверняка ошибочные – 403, 404, 500, 502, 12007, 12039 и прочие . Наверняка ошибочные, но не факт (см. ниже).

Прогоняю на 2-3 раза, т.к. иногда бывает по какой-то причине с первого раза определяется ошибка там, где ее нет.

Выравниваю сайты по колонке http код и далее пересматриваю каждый сайт с ошибкой кода – 403, 404 и пр.

Выравнивание базы сайтов по параметру http код

Выравнивание базы сайтов по параметру http код

Часто можно встретить 3 варианта, когда выпадает http код 404, 403 и др., а сайт на самом деле работает:

1. Сайт работает, все в полном порядке, но Allsubmitter неоднократно показывает ответ 404

2. Сайт работает, просто данная страница закономерно закрыта авторизацией (тематический портал требует сначала регистрацию и т.д.) и поэтому выдает ответ 403

3. Сайт по причине модернизации или для защиты от надоевшего спама сменил страницу с формой добавления

Именно по этим причинам я обычно просматриваю каждый сайт, который вроде бы выдал ошибку.

C ответом сервера 0 чаще оставляю как есть. Раньше убирала сразу в черный список, но по опыту эти сайты часто возвращаются. Это чаще всего временный глюк сервера.

Второй этап очистки – прогоняю все сайты на параметр Title

И фильтрую базу по значениям, которые могут содержать фразы об ошибки, закрытии на реконструкцию, истечении хостинга и т.д.

Как именно работают фильтры по базе подробно писала тут

Итак, фильтрую все сайты базы по следующим значениям:

%шибка%
%остинг%
%rror%
%омен%
%40%
%50%
%10%
%апрещен%
%оступ%
%заблокир%
%onnect%
%.info%
%.com%
%.net%
%обслужив%
%работае%
%конструкци%
%ccount%
%Submit LinkWeb Directory%

Этот список я придумала сама и он продолжает у меня постоянно пополняться.

Довольно часто (при ответе сервера 200) в title можно встретить следующие значения (примеры не из моей базы, которая чистится сейчас, взяты из сайтов, лежащих на проверку и присоединение):

%остинг%

http://msk.dax.ru/php4/catalog/addeditss.phtml выдаёт такой title - «WALLST.RU - Бесплатный Хостинг». Диагноз – хостинг просрочен или отключен.

%onnect%

http://www.herpdigest.org/cgi-bin/weblinks/add.cgi, title Couldn't connect to server, connectcode=0

%конструкци%

http://www.audit-premier.ru/?act=s_add title Аудит-Премьер. Сайт на реконструкции.

%обслужив%
http://legkost.spb.ru/cat/add.php выдет title Ошибка: обслуживание сайта было приостановлено – хостинг просрочен или отключен

%ccount%
http://www.phobi.net/submit.php выдает title Account Suspended - хостинг отключен

%40%
http://polukarov.ru/kat.htm title Erorr Code = 404, хотя сервер выдает код 200. Судя по всему, просрочен домен.

И т.д.

Тритий этап чистки - просмотр частей базы вручную

Ну и потом я еще просматриваю наугад любые пакеты просто вручную - по возможности, как можно больше сайтов.

А) С подозрительным Title – на англ. языке в русскоязычной части, в виде просто названия домена или просто названия фирмы

Б) просто различные тематические сборки – там сложнее всего отследить не работящие сайты, т.к. сайт часто с виду работает, а на самом деле последние статьи от 2005 год или регистрация временно или полностью запрещен и т.д.

Ну вот, в принципе и все ) Отдохнула при помощи смены вида деятельности, написала материал, возвращаюсь дальше к чистке )) Кто покупал - ожидайте обновление на выходных!

И буду рада любым предложениям по модернизации, развитию, улучшению базы, способов чистки и т.д.

Хотите лучшую в Рунете базу, которую кто-то так регулярно бесплатно чистит за вас и которая включает в себя все виды сайтов для продвижения, все тематики, все регионы - более 800 подкатегорий и предназначена для качественной полуавтоматического набора обратных ссылок на сайт?

Покупайте отдельно полную ТОП Базу или любую ее часть или покупайте в комплекте с лицензией Allsubmitter в подарок, по моей акции!