Сегодня и завтра у меня заканчивается очередная глубокая чистка ТОП Базы к регулярному бесплатному обновлению моим покупателям. Решила раскрыть подробнее для всех, кто работает - как я чищу базу.
Просто, чтобы были в курсе, почему так долго и что я при этом делаю, и, возможно, кому-то поможет при чистке своих собственных сборок.
Способы некоторые изобретены мной лично, другие просто очевидны. Если кто знает еще какие эффективные варианты чистки, поделитесь, пожалуйста. )
Чищу базу я с помощью Allsubmitter, но многое происходит автоматом только на первом этапе - при определении параметров сайтов в базе, остальное все вручную - открыть и посмотреть каждый сайт.
В среднем всего в каждую чистку я просматриваю 5-8 тыс. сайтов из моей ТОП Базы.
Первый этап чистки, самый простой и очевидный – на ответ сервера (HTTP код)
Выделяю нужную часть базы, захожу в раздел "Определить параметры сайтов". И выбираю для проверки параметр http код. Только предупреждение! Не прогоняйте сразу большое количество сайтов. Лучше всего партиями по 1-3 тыс. сайтов за раз. Иначе программа может зависнуть.
Основной ответ, успешный - 200. Другие, наверняка ошибочные – 403, 404, 500, 502, 12007, 12039 и прочие . Наверняка ошибочные, но не факт (см. ниже).
Прогоняю на 2-3 раза, т.к. иногда бывает по какой-то причине с первого раза определяется ошибка там, где ее нет.
Выравниваю сайты по колонке http код и далее пересматриваю каждый сайт с ошибкой кода – 403, 404 и пр.
Часто можно встретить 3 варианта, когда выпадает http код 404, 403 и др., а сайт на самом деле работает:
1. Сайт работает, все в полном порядке, но Allsubmitter неоднократно показывает ответ 404
2. Сайт работает, просто данная страница закономерно закрыта авторизацией (тематический портал требует сначала регистрацию и т.д.) и поэтому выдает ответ 403
3. Сайт по причине модернизации или для защиты от надоевшего спама сменил страницу с формой добавления
Именно по этим причинам я обычно просматриваю каждый сайт, который вроде бы выдал ошибку.
C ответом сервера 0 чаще оставляю как есть. Раньше убирала сразу в черный список, но по опыту эти сайты часто возвращаются. Это чаще всего временный глюк сервера.
Второй этап очистки – прогоняю все сайты на параметр Title
И фильтрую базу по значениям, которые могут содержать фразы об ошибки, закрытии на реконструкцию, истечении хостинга и т.д.
Как именно работают фильтры по базе подробно писала тут
Итак, фильтрую все сайты базы по следующим значениям:
%шибка%
%остинг%
%rror%
%омен%
%40%
%50%
%10%
%апрещен%
%оступ%
%заблокир%
%onnect%
%.info%
%.com%
%.net%
%обслужив%
%работае%
%конструкци%
%ccount%
%Submit LinkWeb Directory%
Этот список я придумала сама и он продолжает у меня постоянно пополняться.
Довольно часто (при ответе сервера 200) в title можно встретить следующие значения (примеры не из моей базы, которая чистится сейчас, взяты из сайтов, лежащих на проверку и присоединение):
%остинг%
http://msk.dax.ru/php4/catalog/addeditss.phtml выдаёт такой title - «WALLST.RU - Бесплатный Хостинг». Диагноз – хостинг просрочен или отключен.
%onnect%
http://www.herpdigest.org/cgi-bin/weblinks/add.cgi, title Couldn't connect to server, connectcode=0
%конструкци%
http://www.audit-premier.ru/?act=s_add title Аудит-Премьер. Сайт на реконструкции.
%обслужив%
http://legkost.spb.ru/cat/add.php выдет title Ошибка: обслуживание сайта было приостановлено – хостинг просрочен или отключен
%ccount%
http://www.phobi.net/submit.php выдает title Account Suspended - хостинг отключен
%40%
http://polukarov.ru/kat.htm title Erorr Code = 404, хотя сервер выдает код 200. Судя по всему, просрочен домен.
И т.д.
Тритий этап чистки - просмотр частей базы вручную
Ну и потом я еще просматриваю наугад любые пакеты просто вручную - по возможности, как можно больше сайтов.
А) С подозрительным Title – на англ. языке в русскоязычной части, в виде просто названия домена или просто названия фирмы
Б) просто различные тематические сборки – там сложнее всего отследить не работящие сайты, т.к. сайт часто с виду работает, а на самом деле последние статьи от 2005 год или регистрация временно или полностью запрещен и т.д.
Ну вот, в принципе и все ) Отдохнула при помощи смены вида деятельности, написала материал, возвращаюсь дальше к чистке )) Кто покупал - ожидайте обновление на выходных!
И буду рада любым предложениям по модернизации, развитию, улучшению базы, способов чистки и т.д.
Хотите лучшую в Рунете базу, которую кто-то так регулярно бесплатно чистит за вас и которая включает в себя все виды сайтов для продвижения, все тематики, все регионы - более 800 подкатегорий и предназначена для качественной полуавтоматического набора обратных ссылок на сайт?
Покупайте отдельно полную ТОП Базу или любую ее часть или покупайте в комплекте с лицензией Allsubmitter в подарок, по моей акции!
[…] Как я чищу ТОП Базу […]
Да уж…Просто гигантская работа…) Это же сколько терпения надо иметь)Вы — молодец)
Спасибо за статью, как раз искал инструкцию чистки баз Алсаба. Хоть я и являюсь подписчиком Вашей базы, но также накачал с интернета все, что только можно было. Естественно, без чистки — это просто шлак, но иногда и там попадается что-то стоящее. Хотя по опыту скажу, что вашей базы достаточно для прогонов с головой.
Решил расшарить туристические базы по которым двигал один блог. Базы включают:
61 форумов по туризму
55 блогов с открытыми комментариями
31 туристических каталогов
33 доски объявлений
И того имеем + 180 ссылок )))
Качайте на здоровье.
База- Туризм depositfiles.com/files/f26vyteri
В дальнейшем в этой теме выложу базы по Авто-мото, шины, художники.
Большое спасибо за ваш труд.