Как собрать актуальные user agent?

Как собрать актуальные user agent?

В один прекрасный день вам обязательно понадобятся актуальные значения юзер агент (user agent). В своих поисках пересмотрите много специальных сайтов, размещающих такие списки, но свежих данных не найдете. Далее опишем способ получения списка значений user agent, наиболее актуальных на текущую дату. Не исключено, что несколько записей будет от старых браузеров так как наш метод основан на сборе статистики посещений сайтов, а некоторые пользователи пользуются старыми не обновленными версиями программ.

Для тех кто забыл: User Agent — это клиентское приложение, использующее определённый сетевой протокол. Термин обычно используется для приложений, осуществляющих доступ к веб-сайтам, таких как браузеры, поисковые роботы (и другие «пауки»), мобильные телефоны и другие устройства.

1 этап — сбор статистики с сайтов

Для сбора значений юзер агентов нам понадобятся свои работающие сайты, если нет своих, можно попросить друзей, если и у друзей нет, то можно за небольшое вознаграждение поискать исполнителя на каком-нибудь сео форуме или фриланс сайтах. Чем больше посещаемость сайта, тем лучше так как статистика соберется за короткий срок и по объему она будет значительно лучше.

Определившись с сайтами «донорами» идем в панель управления хостинга и в меню «Журналы» (такое название меню у хостинга beget, в другом может отличатся) включаем функцию «Журнал доступа к веб-серверу». После этих манипуляций в коневой папке сайта появится текстовый файл со списком записей к каким страницам вашего сайта были обращения, ip-адрес и юзер агент устройства. Далее нужно выждать время чтобы эти записи накопились.

На следующем изображении выделена запись user agent, которые мы и сможем узнать и будем собирать.

Пример записи user agent
Пример записи user agent

2 этап — чистка списка user agent

Скачиваем получившиеся файлы к себе на компьютер, если их несколько, то открываем любой в блокноте, а все последующие добавляем в него копированием текста. Тем самым мы подготовим файл для загрузки через excel. В нашем примере получился файл на 86072 строки. Далее необходимо получившийся файл открыть через excel. Открываем программу, жмем «Файл»-«открыть», в следующем окне выбираем наш файл. Далее откроется мастер текстов (импорт) в котором нужно поставить чекбокс в положение «с разделителями» и в следующем окне в поле «другой» поставить двойную кавычку. На третьем шаге в таблице «образец разбора данных» выделить последний столбец и указать для него формат «текст».

После такого импорта данные о посещении разбиты по столбцам. Нужные нам юзер агенты находятся в столбце F, поэтому смело можно удалить столбцы от A до E. Далее необходимо воспользоваться встроенной в excel функцией удаления дублей. В 2007 версии кнопка «удалить дубликаты» находится на вкладке «данные». Нажимаем ее и видим, что вместо 86072 строк, осталось 1555. Но на этом не останавливаемся, а следующим шагом удаляем ненужные записи юзер агент от поисковых систем. Выглядят они так: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Можно поставить фильтр по слову «bot» или «compatible». Далее идем по списку юзер агент и удаляем не нужные нам записи, например, от браузеров телефонов на андроид или айфон.

3 этап — итоговый файл

После всех чисток, получился довольно большой файл user agent, который можете использовать для смены записи в браузере, для добавления в программы парсинга и тому подобные. Актуальность списка — первая половина февраля 2016 года. Периодически он будет обновляться.

Скачать список юзер агент

В файле экселя есть 3 вкладки:

vkladkiexcel

  1. Основной список, где найдете 823 записи user agent от yandex, mozila firefox, opera, internet explorer (IE), google chrome, safari и других браузеров. Записи собирались со статистики посещений сайта, поэтому могут попадаться старые браузеры и операционные системы, ведь не у всех они обновлены.
  2. Вкладка «Мобильные устройства» содержит лист с 530 записями от мобильных браузеров. Решено их не удалять, а перенести в отдельную вкладку.
  3.  Во вкладке «Мусор» собрали старые версии браузеров, использование которых не рекомендуется.

Заключение

Файл user agent браузеров не в фомате txt, но это легко поправимо обычным копированием. На сайтах донорах использовался протокол http. Если в строке встречается запись wow64, то она означает, что компьютер посетителя с таким юзер агентом использует 64-битную операционную систему. Большая часть посетителей — это Россия.

Способ сбора записей не самый быстрый и удобный, но лучше, чем использовать старые и не современные записи.

5 комментариев

Ответить