Если сайт попал под санкции поисковиков

Krizis

Всех волнует кризис. Люди говорят о нем беспрерывно и это естественно.
Но на этой негативной информационной волне мы упустили из внимания еще одну огромную проблему. Серьёзный кризис, связанный с недорогим продвижением инструментами поведенческих и социальных факторов, появился в области поисковых систем.

К Новому Году поисковая система Яндекс начала банить сайты при видимости очевидной накрутки. Другими словами — не важно, откуда появился бот и кто его «запустил». Факт накрутки замечен — позиции снижены. Накрутка карается баном.

Безусловно, мы считаем такую политику Яндекса вредной для всего бизнеса в сети. По логике работы поиска, теперь можно за месяц снизить позиции любого конкурента, что не имеет никакого отношения к поисковой оптимизации.

Так, по нашим скромным оценкам (независимые сервисы аналитики и компании рынка поведенческих факторов) пострадало множество невинных сайтов, которые вовсе не были связаны с черными методами продвижения. Владельцы сайтов недоумевают, но мы знаем, как решить эту проблему.
Рекомендации для сайтов, пострадавших от санкций поисковых систем.

  1. Первым делом, мы рекомендуем писать в техническую поддержку компании Яндекс и заявлять о полной непричастности к любым накруткам. Технически, поисковая система Яндекс, не может выявлять кто «крутит»: владелец или конкурент, потому и возвращает сайт к прежним позициям.
  2. Советуем переходить на новые технологии улучшения поведенческих факторов в системе Userator. Для более эффективного продвижения в поисковой системе Яндекс, уже скоро мы запустим новый алгоритм «Зевс». Вы сможете подключить его самостоятельно в личном кабинете.
  3. Продвигайтесь комплексно! Улучшайте поведенческие и социальные факторы, проводите внутренний аудит сайта (эту услугу уже через неделю можно будет заказать в проекте VTEST), работайте над текстами и их уникальностью, попробуйте сервис подсказок и получайте органический трафик по ним.
    Всех волнует кризис и все говорят о нем. Но мы знаем, как с ним справиться.

by Mr. Роман Морозов and & Ms. Наталья Чердак

MoneyCaptcha и поведенческие факторы на Вашем сайте

MoneyCaptchaСегодня мы хотим рассказать, как можно хорошо заработать на своем сайте или на интересном контенте, а также навсегда забыть о ботах.

Просто установите капчу на места, где у Вас много трафика. Это поможет остановить ботов и к тому же принесет дополнительный доход. Так же можно раздавать ссылки с интересным контентом. За каждую разгаданную капчу вы получаете 1 рубль на WMR кошелек.

Способы заработать на капче:

  • Безусловно, самый удачный пример — заработок на файловом хостинге. На данный момент работает несколько файловых хостингов, которые при скачивании файлов требуют капчу.
  • На втором месте по прибыльности сайты adult-тематики. Чтобы посмотреть заветное видео, человек естественно готов по-быстрому ввести капчу и получить то, ради чего он пришел на сайт.
  • Бронза присуждается сайтам, которые публикуют серийные коды для различных программ.
  • Отдельную нишу занимают красивые девушки с сайтов знакомств, которые предлагают скачать их более личные фотки (разумеется, с вводом капчи от moneycaptcha.ru).
  • Так же капча отлично защищает блоги, написанные на WordPress от ботов и назойливых писак не по делу.

Мы очень надеемся, что наш новый проект moneycaptcha.ru будет радовать вебмастеров заработком и надежной защитой от ботов.

by Mr. Роман Морозов and & Ms. Наталья Чердак

Чем отличается живой сайт от мертвого?

DS-1Вы бы купили товар о котором не пишут? Уверенны, что нет.
Комментарии — это социальный фактор. Помимо влияния на ранжирование сайта, они воздействуют на мнение и решение пользователей.

Как человек покупает товар в интернете?
Для начала, просматривает комментарии. Нередко, читает отзывы о компании. Завершающий этап: покупка товара с уверенностью в том, что деньги не выброшены на ветер.
Если кратко — отзывы, решение, покупка. Чтобы подвести потенциального покупателя к кнопке «оплатить», нужно повлиять на его решение. Сделать это можно с помощью отзывов.
Манипулировать — это целое искусство. Внушить человеку, что ему что-то по-настоящему нужно и, что это можно приобрести только у Вас. А если нет, то именно у Вас самые выгодные условия.

Вот несложные правила, которые могут Вам помочь:

  • Люди оценивают только по-настоящему интересные комментарии. Односложными «круто» и «так держать» никого не удивишь.
  • Если комментарии объемные и качественные, помимо увеличения контента увеличатся еще и другие параметры (к примеру, количество и плотность ключевых слов). Уверенны, при поиске информации, вы нередко видите в сниппетах текст из комментариев. Иногда, за счет них, по среднечастотным запросам сайт выходит на первые позиции.
  • Комментарии к постам положительно сказываются на ранжировании сайта и привлечении трафика. Поисковые системы учитывают действия и активность посетителей: чем выше активность на сайте, тем выше его позиции.
  • Жизнь на сайте, поддерживает пользовательский контент, что влияет не только на мнение поисковых систем, но и на выбор посетителей.
  • То, что создает дополнительную ценность для сайта, как правило, приводит к дополнительному трафику. Комментарии в их числе.
  • Возможно, именно благодаря комментариям, вы отличаетесь от тысячи таких же, по тематике сайтов.

Увеличивает ли наличие комментариев, поисковую видимость сайта?
Комментарии, так или иначе, влияют на ранжирование, на текстовые факторы ранжирования и на поведенческие факторы. Стоит помнить, что влиять на ранжирование и улучшать видимость по тем или иным запросам — не одно и то же. Сегодня общее значение релевантности зависит от огромного количества факторов. Потому, чтобы кардинально повлиять на видимость сайта, необходимо привести в порядок тексты, улучшить юзабилити и проработать коммерческие факторы ранжирования.

by Mr. Роман Морозов and & Ms. Наталья Чердак

Поведенческие факторы 6.0

1_6Последние два месяца мы активно тестируем результаты влияния новой технологии случайных поведенческих факторов.

О результатах мы подробно рассказывали на конференции в Казани.

Были проведены масштабные работы по внедрению поведенческих факторов 6.0 в работу Userator. На данный момент система выполнения и выдачи заданий изменена.

  • Отныне, пользователи, которые не работают в системе выполняют задание всего 1 раз через сервис MoneyСaptcha.ru
  • Теперь пользователи могут выполнять задания через мобильные устройства с помощью удобной системы Vzadache.ru

При использовании новой технологии для хорошо оптимизированных сайтов результат можно получить уже в течении месяца для Яндекса и Google.
На данный момент мы не подключаем новую технологию для всех сайтов, однако для компаний с бюджетом более 30 тысяч рублей в месяц поведенческие факторы 6.0 подключаются автоматически.

Также мы предлагаем веб мастерам навсегда избавиться от спама и при этом заработать. Для этого нужно просто установить самую надёжную капчу на свой сайт и начать получать прибыль за выполненные простейших заданий по поведенческим факторам.

Мы уверенны, что данные нововведения позволят рекламодателям легко и успешно развивать Свой бизнес в интернете.

4_6by Mr. Роман Морозов and & Ms. Наталья Чердак

Кот ученый или ошибки веб-мастеров

skazkiБольшинство проектов, как бы хорошо они не начинали, сталкиваются с проблемой спада интереса. В связи с этим возникают стандартные проблемы: сокращение аудитории, уменьшении конверсии и прибыли.

В подобной ситуации веб-мастера довольно часто делают неправильный выбор. На самом деле ошибиться несложно, если не знаешь причин возникновения проблемы.

В большинстве случаев их всего две: сайт устарел, либо неудобен для пользователей.

Чтобы описать типичные действия в подобной ситуации, мы разделили веб-мастеров на 4 категории:

1) Колобок
«Я от бабушки ушел, я от дедушки ушел и на лису наткнулся».
Колобки в панике бегут к SEOшникам, чтобы увеличить процент целевого трафика. Они не понимают, что ситуацию этим не спасти и люди все равно будут уходить с сайта, который не идет в ногу со временем.

2) Медведь
«Все сломаем и заново построим абы как».
Второй тип жирным крестом перечеркивает нынешний дизайн сайта и обращается к дизайнерам. Иногда подобное решение спасает, но далеко не всегда. Ведь чтобы создать по-настоящему грамотный сайт для людей, нужен не только дизайнер, но и человек, который анализирует нынешнюю ситуацию и подсказывает пути решения. Такой человек называется юзабилист.

3) Иванушка
Начитавшись сказок, про удачливого Иванушку-дурачка, некоторые пускают все на самотек и рассчитывают на волшебное русское «авось». Такие консерваторы надеются, что «само пройдет» и «все как-нибудь наладится». Не самый действенный метод, с вероятностью 90% такой сайт рано или поздно пойдет ко дну.

4) Кот ученый
И только кот ученый знает, что когда возникает проблема, лучше обратиться к профессионалам, так как нанимать свой собственный штат юзабилистов довольно накладно. (убыточно или себе дороже)

peopleМы не отрицаем, что случаи бывают разные и иногда достаточно обратиться к SEOшникам или полностью переделать дизайн — вдруг повезет и все наладится. Но все же не советуем быть Иванушками, гораздо мудрей действовать по методу Кота ученного. Ведь команда специально обученных людей выявит проблемы и подскажет пути решения гораздо быстрей.

Сейчас довольно многого компаний, которые занимаются юзабилити и немало людей, которые называют себя юзабилити-экспертами. Чтобы не попасться на уловки некомпетентных «специалистов», лучше сразу обращаться к профессионалам.

Среди компаний, предлагающих подобные услуги, мы нашли только одну, которая помимо эксперта, использует еще и «мнение народа», что довольно прогрессивно для Рунета. Пользователи отвечают на ряд вопросов, составленных ведущими специалистами в области интернет-маркетинга. На наш взгляд, это довольно эффективный метод, благодаря которому можно узнать, что именно не нравится простым людям.

Каждая компания сможет выбрать оптимальный «пакет услуг», отталкиваясь от ценовых категорий.

vtestby Mr. Роман Морозов and & Ms. Наталья Чердак

А был ли Яндекс?

Последнее заявление Яндекс, сделанное на Seo Conference в Казани, заключается в следующем: поисковая система научилась распознавать искусственное улучшение поведенческих факторов и пессимизирует такие сайты в выдаче. Громко сказано. Не надо паники! На текущий момент компания Яндекс делает все, чтобы как можно больше бюджетов уходило не в поисковую оптимизацию (источник самого низкого по цене поискового трафика), а в Яндекс.Директ с гигантской стоимостью клика, который не обязательно приведет к последующему заказу.

Обратите внимание на то, как выглядит поисковая выдача в Яндекс сегодня. Вводим запрос, к примеру, «продвинуть сайт дешево Москва» и наслаждаемся выдачей, где традиционные ТОП-3 занимают рекламные размещения Яндекс.Директ.

yandexТОП-10 несколько снизили свою эффективность, но продвижение сайта все еще является самым стабильным и надежным источником получения коммерческого трафика. О текущем положении дел подробно рассказывал основатель системы Userator, Роман Морозов на Seo Conference 2014.

Рекомендуем внимательно посмотреть видео (внимание : с 22 минуты видео идут интересные комментарии представителя Яндекса Сергея Волкова) :

Компания Яндекс заявляет, что может распознать искусственную «накрутку» поведенческих факторов, а также не учитывает в своих алгоритмах влияние ссылок. Однако последние исследования нескольких тысяч клиентов Userator показывают, что комплексная работа по продвижению, а именно улучшение поведенческих факторов в сочетании с социальными сигналами и усилением ссылок, при условии внутренней оптимизации, помогает вывести 90% запросов(ТОП-50) в зону ТОП-20 уже за 2 месяца. При минимальных вложениях, в среднем наши пользователи тратят на продвижение 350-400 рублей!

Распознать улучшение поведенческих факторов при комплексном применении проблематично даже для алгоритмов Яндекс. Остановимся на этом вопросе подробнее. В системе Userator все задания выполняются вручную, с разных типов устройств, а также группой случайных пользователей (выполнение заданий через капчу нового поколения Money Capcha). Разноплановую по поведению группу пользователей невозможно подогнать под типовые паттерны. Дополнение этого комплекса инструментов живыми социальными сигналами делает продвижение вашего сайта органичным и не вызывает подозрений со стороны поисковых систем.

Специалисты Userator рекомендуют не поддаваться на PR со стороны Яндекс, а продолжать последовательно работать над сайтом. Улучшайте юзабилити вашего сайта (подробные рекомендации можно получить в сервисе Vtest), что поможет увеличению конверсии и повлияет на лояльность пользователей, используйте для продвижения сочетание инструментов поведенческих, социальных факторов и усиление ссылок в сервисе Userator, публикуйте качественный контент и получайте клиентов из поиска, не попадая под санкции Яндекс.

Vtest+Userator=Топ-10

top-10_2Поведенческие факторы — действия пользователей на сайте: коэффициент отказа, просмотр страниц, клики на ссылки т.д. Накрутка — это улучшения данных показателей.

После волны паники после отмены ссылочных факторов оптимизаторы начали искать альтернативные варианты продвижения. В то время многие начали бежать с корабля и копировать первую в мире систему по улучшению поведенческих факторов — Userator.ru.

Благодаря нашему проекту огромное количество сайтов заняли позиции в Топ 10 поисковой выдачи и остаются на вершине по сей день.

topОднако не все сайты могут держаться на верхушке. Их владельцы забывают о главном: продвинуть сайт в Топ с помощью нашего сервиса можно, однако если ваш сайт не нравится пользователям, они не будут на него возвращаться.

Что делать?
Необходимо понять, что именно не нравится людям и устранить эти проблемы. Сделать это можно с помощью нашего сервиса Vtest.ru

ghu

 

Анализ юзабилити — прежде всего, асессорская оценка. То есть простые люди отвечают на огромное количество вопросов по тому или иному сайту и сравнивают его с сайтом конкурентов. В результате чего создается хорошая, объективная оценка того, насколько сайт хорош или плох для конечного потребителя. Вследствие чего подготавливаются рекомендации о необходимых изменениях для сайта, чтобы он получил естественные поведенческие факторы и любовь пользователей.

Однако мы решили, что зачастую одного мнения пользователей недостаточно и нужен взгляд эксперта для более глубокого анализа сайта. Так, нами был создан vtest.ru. Заказчик получает полноценный отчет, над которым работает целая команда всего за 5 дней. Мы разработали 4 разных типа отчетов, различающихся по объему и ценам. С более подробной информацией можно ознакомиться на самом сайте.

Выполнение рекомендаций, представленных в данном исследовании, поможет Вам:

  • Улучшить внешний вид сайта.
  • Повысить удобство сайта.
  • Увеличить конверсию.
  • Сделать его более удобным для пользователей, что положительно сказывается на динамике продвижения в поисковых системах (поведенческие факторы, социальные факторы).
  • Поднять сайт в Топ выдачи.

Лучшая формула успеха:

  1. Выполнить качественную оптимизацию и сделать удобное юзабилити сайта не хуже, чем у конкурентов.
  2. Обеспечить хорошие поведенческие факторы за счет работы с ними.
  3. Обеспечить хорошие социальные факторы.

Все это вместе дает, как правило, хорошие результаты даже без каких-то скупок ссылок. На сегодняшний день с помощью этой схемы можно довольно быстро занять Топ выдачи.

by Mr. Роман Морозов and & Ms. Наталья Чердак

SEO-Конкурс на лучший сценарий для продвижения с призовым фондом 50 000 рублей

konkursВнимание всем специалистам в области продвижения сайтов и привлечения трафика. Компания Userator проводит конкурс КЕЙСОВ ДЛЯ ПРОДВИЖЕНИЯ САЙТОВ с призовым фондом в 50 000 рублей.

Условия конкурса: нужно подготовить кейс для продвижения сайта, количество предлагаемых кейсов одним участником не ограничено. Лучшие кейсы с первого по восьмой получат денежные призы.

Хотим отметить, что речь идет о стратегических кейсах. Не секрет, что в системе userator.ru можно создавать сложные цепочки заданий с использованием социальных сетей и поведенческих факторов. Именно о создании подобных стратегий идет речь.
В описании кейса мы рекомендуем указывать товары, услуги и предложения с больших букв, так, чтобы это можно было удобно адаптировать для любого бизнеса.

Призовой фонд:
1 место — 20 000
2 место — 10 000
3 место — 5 000
4 место — 5 000
5 место — 3 000
6 место — 3 000
7 место — 2 000
8 место — 2 000

indexКейсы будут оцениваться по следующим параметрам :

Конверсия потребителей (цена лида) — от 1 до 20 баллов,
Влияние на поиск (Яндекс, Google) — от 1 до 10 баллов,
Скорость получения клиентов — от 1 до 10 баллов,
Уникальность (новизна) кейса— от 1 до 10 баллов,
Повышение лояльности к бренду — от 1 до 10 баллов,
Экологичность метода — от 1 до 10 баллов,
Вероятность санкций от поисковых систем и социальных сетей — от 1 до 10 баллов
Психология влияния на покупателя — от 1 до 10 баллов,
Эффективность (с точки зрения экспертов) — от 1 до 10 баллов.

indexУсловия исключения из конкурса :
1) Повторы кейсов заявленных ранее
2) Кейсы нарушающие УК РФ

Результаты конкурса будут объявлены 26 сентября на V SEO-Конференции в Казани. Денежные призы будут выплачены после 30 сентября. Заявки с кейсами принимаются до 24 сентября на форуме userseo.ru. Любые повторы и близкие копии кейсов приниматься не будут.

Для подачи кейса нужно заполнить следующие поля:
Название кейса :
Цель кейса :
Подробное описание кейса :
Настройка сайта :
Настройка кейса :
Цена заказа подобного кейса :

Мы решили привести наш ряд примеров кейсов из разных областей, которые, разумеется, не будут участвовать в конкурсе.

Кейс № 1.
Название кейса: Социальный взрыв.                                                                     Цель кейса: Усиление позиций сайта с помощью социальных сигналов при нажатии социальных кнопок.
Подробное описание кейса: Кейс подходит для любых сайтов и значительно повышает количество посетителей с социальных сетей и поисковых машин.
Суть кейса заключается в работе с социальными сигналами, их комментированием и усилением социальных сигналов поведенческими переходами по ссылкам. Также работа с данными.
Настройка сайта: Устанавливаем кнопки «Поделиться» на продвигаемый сайт на каждую страницу. (http://api.yandex.ru/share/ )

Настраиваем следующую цепочку для каждой страницы сайта:
Наг 1 — Нажатие на соц. сигнал в Twitter (1 раз на страницу в день)
Шаг 2 — Комментирование данного сигнала в Twiter. (1 раз в продолжение цепочки).
Шаг 3 — Реттвит социального сигнала, Шага 1 (2 раза в прохождение цепочки).
Шаг 4 — Усиление ссылок по шагу 1 (5 раз в продолжении цепочки).
Аналогичная проработка кнопок VK, Facebook для каждой страницы сайта

Цена заказа подобного кейса: Цена в данном случае зависит от количества страниц. Объемы работ можно сокращать, основываясь на бюджете и конкуренции. Рекомендуемый объем для кейса — 5-8 тысяч рублей в месяц.

Кейс № 2
Название кейса: Меняем психологию продаж.
Цель кейса: Привлечь покупателей к определенному товару.
Подробное описание кейса: Кейс отлично подходит для решения выгрузки со складов определенных товаров или для повышения лояльности к услугам. Данный кейс влияет на психологическое отношение к товару или услуги.
Настройка сайта: Добавляем на сайт голосование по полезности товаров или услуг. При возможности организуем публикацию голосований на популярных блогах и форумах в по данной тематики.
Настройка кейса: Организуем голосование и накрутку определенного товара или услуги, как правило, достаточно 200 человек. Организуем репосты в ВКонтакте данного голосования (Достаточно 50).
Цена заказа подобного кейса: 4 р. за голос * 200 = 800, 50 репостов *3 = 150. Итоговая стоимость составляет 950 рублей.

Кейс № 3
Название кейса: Обсуждение определенного товара или услуги
Цель кейса: Повысить интерес к определенному товару, улучшить поведенческие факторы продвигаемого сайта.
Подробное описание кейса: Данный кейс отлично подходит для изменения мнения о товаре или услуге.
Настройка сайта: Не требуется.
Настройка кейса: Суть кейса заключается в создании цепочки обсуждения со следующим алгоритмом (Вопрос, трагедия, надежда, решение, благодарность):
Вопрос: Кто-то задает вопрос по поводу услуги. Пример: Где сейчас можно заработать в Интернете?
Трагедия: Второй человек отвечает, что это невозможно. Пример: Заработать? Нигде! Я пробовал, не получилось.
Надежда: Третий человек дает надежду на решение вопроса. Пример: Есть интересные биржи по выполнению небольших заданий в Интернете, но я не знаю адреса.
Решение: Четвертый человек дает адреса и рекомендацию. Пример: Есть отличный ресурс VZadache.ru, я там заработал 15 000 рублей в прошлом месяце.
Благодарность: Как правило 1, 2 человека, которые участвуют в обсуждения сообщают: Cпасибо, вопрос решен.
В усиление данного кейса пускаем поведенческие переходы по указанной ссылки. (5 переходов на 1 обсуждение). Все задания на написание обсуждений делаем изменяемыми, так чтобы обсуждения не повторялись, но смысл оставался постоянным. Так же усиливаем обсуждение 5 репостами.

Цена заказа подобного кейса: цена 1 обсуждения: 20 + 20 + 20 = 60. Рекомендуем делать по 15 обсуждений на каждый товар -> приблизительно 1000 рублей на 1 товар или услугу.

Еще один пример стратегического SEO-кейса: метод «Шиворот-Навыворот» подробно описанный на нашем блоге.

by Mr. Роман Морозов and & Ms. Наталья Чердак

Fresh BrowseRank

Алексей Толстиков, Михаил Шахрай, Глеб Гусев, Павел Сердюков
Yandex

АННОТАЦИЯ
В последние несколько лет много внимания уделялось вопросу оценки авторитетности веб-страницы на основе пользовательского поведения. Однако предложенные методы имели ряд недостатков. В частности, предложенные техники работали на единственном снимке графа сёрфинга, игнорируя его природную динамику с непрерывно изменяющейся пользовательской активностью, что приводит актуальность использования метода к нулю. В данной работе предлагается новый метод расчёта важности веб-страницы под названием Fresh BrowseRank. Оценка страницы нашим алгоритмом соответствует её весу в стационарном распределении гибкой модели случайного блуждания, которая управляется чувствительными к обновлениям весами вершин и рёбер. Наш метод обобщает некоторые ранние подходы, обладает расширенными возможностями для захвата динамики Сети и пользовательского поведения и преодолевает стандартные ограничения BrowseRank. Результаты эксперимента показывают, что наш подход способен генерировать более релевантные и более свежие результаты ранжирования по сравнению с классическим BrowseRank.

Категории и описание предмета: H.3.3 [Хранение и поиск информации]: Информационный поиск
Общая терминология: алгоритмы, опыт, показатели работы
Ключевые слова: авторитетность страницы, BrowseRank, новизна, поиск в сети, обучение

1. Введение
Оценка авторитетности веб-страницы является одной из самых важных характеристик, используемых алгоритмами ранжирования. Существует множество способов расчёт важности веб-страниц, среди которых есть такие алгоритмы, которые анализируют историю посещений пользователя. В частности, алгоритм BrowseRank [1] измеряет важность веб-страницы посредством расчёта её вероятности в стационарном распределении непрерывного процесса Маркова на графе сёрфинга пользователей. Несмотря на неоспоримые преимущества BrowseRank и его модификаций (см. раздел 2), эти алгоритмы не учитывают временную характеристику Сети. Более новые страницы, вероятно, более релевантны запросам, чувствительным к новизне, чем старые страницы и, как следствие, временная характеристика релевантности документа позволяет провести более чёткое разграничение между релевантными и нерелевантными документами. Учитывая существование регулярно обновляемых ресурсов, посвящённых новостям, политическим вопросам, спортивным обзорам или конференциям, пользователь, скорее всего, ищет информацию, относящуюся к самому последнему событию. По этой причине вопрос создания чувствительного к новизне (свежести, fresh) BrowseRank должен быть весьма актуален для поисковых систем.

Далее представлен алгоритм Fresh BrowseRank, который распределяет веса по страницам в зависимости от их новизны. Чтобы показать эффективность Fresh BrowseRank, мы сравниваем его с классическим BrowseRank на большой выборке в графе сёрфинга пользователей и демонстрируем, что наша методика имеет более высокую производительность по сравнению с оригиналом. Насколько нам известно, предложенный алгоритм является первым алгоритмом ранжирования, чувствительным к новизне и работающим на основе истории посещений пользователя.

Оставшаяся часть работы выглядит следующим образом. Раздел 2 содержит краткий обзор подходов к измерению важности страницы. В разделе 3 мы описываем структуру, которая помогает представить описываемый в работе алгоритм. Мы определяем, что такое FreshBrowseRankв разделе 4. В разделе 5 мы описываем метод, используемый нами для настройки параметров алгоритма. Результаты опыта описаны в разделе 6. В разделе 7 мы обсуждаем возможное применение и последующую работу.

2. Проделанная работа
Широко применяемым методом оценки важности веб-страниц является анализ сети в виде графа веб-страниц, соединённого гиперссылками. Наиболее известным представителем алгоритмов ссылочного анализа является PageRank (Page и др. [2]). Согласно алгоритму оценка страницы p равна её весу в стационарном распределении дискретного процесса Маркова, который моделирует случайное блуждание пользователя по гиперссылочному графу. Однако подобный метод оценки обладает рядом уязвимостей. В частности, значительная доля страниц и ссылок является ненадёжной и не используется реальными людьми. Прочие варианты используют качественно иной вид данных. Как следствие, моделирование случайного блуждания на плоском гиперссылочном графе не реалистично. В 2008 Liu и др. [1] предложили алгоритм BrowseRank, который рассчитывает важность веб-страницы, используя данные о поведении пользователей. Граф сёрфинга содержит множество информации, такой как время пребывания пользователей на странице, число переходов между веб-страницами и т.д. В отличие от PageRank, основанного на дискретной случайной работе, BrowseRank использует непрерывный процесс Маркова на основе статистики сёрфинга пользователей. Такая модель является более реалистичным подходом к оценке важности веб-страниц. Однако подходящий алгоритм ранжирования должен обладать некоторыми свойствами, которых нет у BrowseRank. Liu и др. в [3], [4] предложили разнообразные модификации алгоритма, которые позволяют устранить некоторые недостатки. В [3] показаны новые способы оценки распределения времени пребывания. В [4] используется Скелетные Процессы Маркова для моделирования случайного блуждания веб-сёрфера. Они показывают, что этот фреймворк охватывает множество существующих алгоритмов (среди которых PageRank, Usage-based PageRank [5], TrustRank [6], BrowseRank Plus, MobileRank [7] в качестве модификаций). Параметры этих алгоритмов могут выбираться таким образом, что они будут работать аналогично классическому BrowseRank. Существуют и другие подходы к вычислению важности веб-страницы с использованием данных о пользовательском поведении, которые не применяют модель случайного блуждания (например, [8]).

Важной проблемой, которая не решена ни одним из упомянутых алгоритмов, является проблема ранжирования новизны. Как показано в [9], граф сёрфинга существенно меняется каждый день. Поэтому страницы, имевшие высокий BrowseRank несколько дней назад, могут не быть авторитетными в настоящий момент.

Yu и др. [10] были первопроходцами в изучении алгоритмов ссылочного анализа, чувствительных к временным характеристикам Сети. Авторы модифицировали PageRank посредством взвешивания каждой гиперссылки в соответствии с её возрастом. Прочие алгоритмы ссылочного ранжирования, чувствительного к новизне, изучались Amitay и др. в [11], Berberich и др. в [12] и [13], Yang и др. в [14], Dai и Davison в [15]. Алгоритм T-Fresh из последней работы обобщает идеи из всех остальных вышеупомянутых публикаций. Однако T-Fresh обладает несколькими недостатками, которых нет в алгоритме APR за авторством Жуковского и др. в [16]. Оба метода основаны на взвешивании графа, которое собирает информацию о свежести страниц и гиперссылок. Dai и Davison вывели два новых фактора важности страницы, которые зависят от свежести самой станиц и свежести ссылок. В отличие от T-Fresh, оценка свежести APR зависит от скомбинированного поведения страниц и ссылок. Такой подход позволяет контролировать влияние обоих типов характеристик на назначаемую оценку. Следуя схожему принципу мы предлагаем методику решения проблемы нечувствительности BrowseRank к новизне, что показано в разделе 6. Насколько нам известно, в данной работе впервые рассматривается чувствительная к новизне разновидность BrowseRank.

3. Фреймворк и обозначения
Популярные поисковые системы постоянно предлагаю пользователям установить в их браузер свои тулбары, которые, помимо полезных возможностей отслеживают сессии пользователей, чтобы использовать собранную информацию для улучшения качества поиска. Анонимная информация, описывающая пользовательское поведение (посещённые страницы, количество посещений, поданные запросы и т.д.) сохраняется в логе браузера. Мы определяем сессии и граф сёрфинга пользователей аналогично Liu и др [1]. Пусть S — это сессия пользователя. Страницами сессии будут p1(S),p2(S),…,pk(s)(S). Для каждого i ∈ {1,2,…,k(S) — 1} тулбар делает запись pi(S) → pi+1(S). Мы называем страницы pi(S), pi+1(S) соседними элементами сессии S.

Для каждой страницы p из лога браузинга мы определяем число сессий, начатых с этой страницы как s(p). Для каждой пары соседних элементов {pi,pi+1} в сессии мы определяем число сессий, содержащих такую пару как I(pi,pi+1).

Мы определяем граф сёрфинга пользователя G = (V,E) таким образом: ряд вершин V состоит из всех веб-страниц, упомянутых в логе, а так же из дополнительной вершины x. Набор ориентированных рёбер E содержит все упорядоченные пары соседних элементов {p1,p2}. Так же он содержит дополнительные рёбра от последних страниц всех сессий к вершине x. Пусть σ(x) = 0. Для каждой страницы p при условии p → x ∈ E определим число сессий, завершившихся на p как I(p,x).

Освежим в памяти определение BrowseRank. Вероятность сброса σ(p) — это вероятность выбора страницы p при старте новой сессии. Она пропорциональна числу сессий s(p), начинающихся со страницы p. Поэтому σ(x) = 0. Вероятность перехода w(p1 → p2) — это вероятность клика гиперссылки p1→p2. Она равна I(p1,p2)/(∑pi → p ∈ E).

Оцениваемое время пребывания Q(p) страницы p определено в [1]. BrowseRank p равен Q(p)π(p), где

r1(последние уравнения работают и при p = x), α_(p) = α(1 — π(x)) + π(x).

Стоит отметить, что вероятности перехода не зависят от свежести ссылок и пользователь выбирает старые и новые ссылки с одинаковой вероятностью. По этой причине мы освежаем вероятности перехода путём взвешивания ссылок в соответствии с оценкой новизны страниц перехода. В следующем разделе мы описываем измерение этой новизны.

4. Fresh BrowseRank
Определим меру новизны страницы. Мы используем фреймворк из работы [16]. Рассмотрим два момента времени τ, Т, τ < Т. Мы разделяем интервал [τ,Т] на К частей: [ti-1,ti], i ∈ {1,2,…,K}, t0 = τ, ti-ti-1 = (T — τ)/k. Для каждой страницы p из V определим через t(p) дату создания. Мы считаем, что вершина x была создана в момент времени τ.
Пусть i ∈ {1,2,…,K}. Пусть p ∈ V — это вершина, созданная до ti. Мы определяем оценку новизны Fi(p) p в i-ом интервале времени следующим образом:
1) Мы определяем начальное значение Fi0(p) забирая новизну страницы p и её ссылок как (27):

r2где a0, b0 — неотрицательные параметры; ni(p) = 1 если вершина p создана в i-ом периоде, иначе ni(p) = 0; mi(p) — это число посещений страницы в i-ом периоде. Устанавливаем Fi0(x) = 0.

2) Начальная оценка Fi0(o) распределяется по вершинам через исходящие рёбра (28):

r3где μ ∈ [0,1], Wi(p) — это оценка, назначенная «локальной» мерой новизны вершине p в i-ом периоде времени. Эта мера определяется таким же образом, как начальная мера Fi0 (значения параметров могут отличаться от параметров в уравнении (27)) (29),

r4Мы хотим «распространить меру новизны» по исходящим со страницы ссылкам, даже если среди них нет свежих ссылок. Поэтому мы увеличиваем вес страницы на 1 (последнее слагаемое в формуле 29), если она была создана до времени ti. Система, описанная в уравнении 28 иллюстрирует влияние соседей на меру новизны страницы.

3) Наконец, мера новизны Fi определяется как Fi(p) = ΒFi-1(p) + ΔFi(p). Мера экспоненциально уменьшается со временем, если нет никакой активности у вершины p (параметр Β из (0, 1)). В действительности Fi(p) = ΒiΔF0(p) если не было активности за период [τ, ti].
В уравнении 28 все рассматриваемые вершины и рёбра созданы до момента времени ti.
Пусть мера новизны назначит странице p в графе G оценку Fk(p). Мы освежаем вероятность перехода путём замены I(p1,p2) на I(p1,p2)Fk(p2). Другими словами вероятность свежего перехода wf(p1→p2) ребра p1→p2 равно I(p1,p2)Fk(p2)/(∑p:p1→p∈EI(p1,p)FK(p)) и Fresh BrowseRank p равен Q(p)πF(p), где

r5В таблице 1 представлено описание всех параметров алгоритма.
Таблица 1. Параметры Fresh BrowseRank.

r7r8

 

5. Обучение
Пусть fq(p) — значение нашей характеристики страницы p и запроса q. Сделаем её запросо-зависимой путём линейной комбинации Fresh BrowseRank с запросо-зависимой характеристикой.
Обучающая выборка содержит коллекцию запросов и наборы страниц Vq1, Vq2,…,Vqk для каждого запроса q, которые отсортированы от наиболее релевантных (свежих) к нерелевантным страницам. Другими словами Vq1 — это набор всех страниц с самой высокой оценкой. Для любых двух страниц p1 ∈ Vqi, p2 ∈ Vqj пусть h(i,j,fq(p2) — fq(p1)) будет значением пенальти, если позиция страницы p1 в соответствии с нашим алгоритмом ранжирования выше, чем позиция страницы p2 но i < j. Функция h — это функция потери (loss function). Мы рассматриваем потери с границами bij > 0, где 1 ≤ i < j ≤ k: h(i,j,x) = max {x + bij, 0}2. Пусть w — это вектор параметров Fresh BrowseRank.

r9Минимизируем вектор методом градиентной оптимизации. Алгоритм ранжирования новизны требует частой настройки параметров. Простой выбор значений параметров из крупной выборки отнимает много времени. Поэтому применение простой оценки существенно снизит качество поисковой выдачи. Покажем, как мы нашли производную дπF/дwi. Насколько нам известно, мы первые получившие производные от стационарного распределения процесса Маркова когда его вероятности перехода — это функции стационарного распределения другого процесса Маркова (вложенные процессы Маркова широко применяются, см. [15], [16]). Легко найти производные дπFresh/дα через решение следующей системы линейных уравнений (30), (31).

r10r11получаем производную дw/дΒ(q→p) через нахождение дFk/дΒ(p) из уравнения:

r12Представим системы линейных уравнений с решениями дπF/дμ, дπF/дα0, дπF/дα1 (производные дπF/дb0, дπF/дb0 — решения тех же уравнений). Первые уравнения системы аналогичны уравнениям из (5). Нам только требуется выбрать рассматриваемый параметр вместо Β. Остаётся найти дΔFi/дμ, дΔFi/дα0, дΔFi/дα1:

r13параметры τ, Т, К выбираются из небольшого числа вариантов. Мы рассматриваем интервал времени [τ,Т] длиной в 1 неделю. Параметр К выбирается таким образом, чтобы длина одного периода [ti-1,ti] были либо 1 день, либо 6 часов, 3 часа и 1 час.

6. Результаты эксперимента
Все эксперименты проводились на страницах и ссылках сканированных в декабре 2012 популярной коммерческой поисковой системой. Мы использовали все данные с тулбаров с 10 декабря по 16 декабря 2012. В выборке было 113 млн. страниц и 478 млн. переходов. Для оценки ранжирования мы выбрали ряд запросов, поданных реальными пользователями за период с 14 по 17 декабря. Запрос — это пара «текст запроса, время запроса». Каждый запрос был оценён экспертами, нанятыми поисковой системой. Когда ассессор оценивал пару «запрос, URL», он назначал оценку и новизне страницы в соответствии с временем запроса и оценивал тематическую релевантность страницы запросу. Из-за специфики задания мы рассматривали только чувствительные к новизне запросы, на которые и нацелен наш алгоритм. Чтобы иметь должную релевантность для таких запросов, документы должны были быть и новыми и отвечающими тематике одновременно. Ассессоры были проинструктированы оценивать документы как новые, если тулбар делал запись не раньше 3 дней до момента оценки. Наконец, вышеописанные процедуры вылились в 200 оцененных запросов по новизне и 3000 пар запрос-URL.

Оценка релевантности проводилась по пятибалльной шкале: Идеально, Отлично, Хорошо, Неплохо, Плохо. Мы разделили данные на две части. На первой части (75% данных) мы обучали параметры, а на второй тестировали работу алгоритма. Мы сравнили Fresh BrowseRank с классическим BrowseRank так же, как это делали Dai и Davison [15] и Жуковский [16]. Алгоритмы были линейно скомбинированы по рангам при помощи BM25. Затем параметры Fresh BrowseRank выбирались путём максимизации функции потери. Параметр линейной комбинации BM25 выбирался через максимизацию метрики NDCG. Мы получили следующие параметры:

r14Параметр K выбирался из набора {7, 28, 56, 168}. В этих случаях длины интервалов [ti-1,ti] равнялись 1 дню, 6 часам, 3 часам и 1 часу, соответственно.
Таблица 2 демонстрирует производительность алгоритмов по метрикам NDCG@5 и NDCG@10.

Таблица 2. Производительность.

r15
7. Заключение
В данной работе мы представили Fresh BrowseRank, следующий алгоритм анализа пользовательского поведения, чувствительный к новизне. Мы сравнили его с классическим BrowseRank. Наш алгоритм был протестирован на крупном объёме данных и продемонстрировал превосходство над BrowseRank. Кроме непосредственного интереса наших результатов, они так же могут быть полезны коммерческим поисковым системам, желающим улучшить качество своей выдачи. Естественно, стоит предлагать и другие алгоритмы анализа пользовательского поведения, чувствительные к новизне, на основе нашего фреймворка. По этой причине мы считаем, что наш подход будет фундаментом исследований в данной области. Было бы интересно изучить прочие аспекты пользовательского поведения, однако нам не хватает алгоритмов. Например, стоит представить слой узлов запросов в виде графа. Так же мы представили методику обучения параметров вложенных процессов Маркова. Было бы интересно использовать эти алгоритмы для других алгоритмов, основанных на схожих процессах.

8. Ссылки
[1] Y. Liu, B. Gao, T.-Y. Liu, Y. Zhang, Z. Ma, S. He, H. Li, BrowseRank: Letting Web Users Vote for Page Importance. Proc. SIGIR’08, pp. 451-458 , 2008.
[2] L. Page, S. Brin, R. Motwani, and T. Winograd, The PageRank citation ranking: Bringing order to the web. dbpubs.stanford.edu/pub/1999-66, 1999.
[3] Y. Liu. T.-Y. Liu, B. Gao, Z. Ma, H. Li, A framework to compute page importance based on user behaviors, Inf Retrieval, 13: 22-45, 2010.
[4] B. Gao, T.-Y. Liu, Z. Ma, T. Wang, H. Li, A General Markov Framework for Page Importance Computation, Proc. CIKM’09, pp. 1835-1838, 2009.
[5] M. Eirinaki, M. Vazirgiannis, UPR: Usage-based Page Ranking for Web Personalization, Proc. on Fifth IEEE International Conference on Data Mining, pp. 130–137, 2005.
[6] Z. Gyongyi, H. Garcia-Molina, J. Pedersen, Combating web spam with trustrank, Proc. InVLDB’04, pp. 576-587, 2004.
[7] B. Gao, T.-Y. Liu, Yu. Liu, T. Wang, Z.-M. Ma, H. Li, Page Importance Computation Based on Markov Processes. Inf. Retrieval, 14 (5), pp. 488-514, 2011.
[8] G. Zhu, G. Mishne, Mining Rich Session Context to Improve Web Search, Proc. KDD’09, pp. 1037-1046 , 2009.
[9] Y. Liu, Y. Jin, M. Zhang, S. Ma, L. Ru, User Browsing Graph: Structure, Evolution and Application, WSDM 2009, 2009.
[10] P. S. Yu, X. Li, and B. Liu, On the temporal dimension of search. Proc. WWW’04, pp. 448-449, 2004.
[11] E. Amitay, D. Carmel, M. Herscovici, R. Lempel, and A. Soffer. Trend detection through temporal link analysis. Journal of the American Society for Information Science and Technology, 55(14), pp. 1270-1281, 2004.
[12] K. Berberich, S. Bedathur, M. Vazirgiannis, G. Weikum. Buzzrank… and the trend is your friend. Proc. WWW06, pp. 937-938, 2006.
[13] K. Berberich, M. Vazirgiannis, G. Weikum, Time-aware authority ranking. Int. Math., 2(3), pp. 301–332, 2005.
[14] L. Yang, L. Qi, Y. P. Zhao, B. Gao, and T. Y. Liu. Link analysis using time series of web graphs. Proc. CIKM’07, pp. 1011-1014, 2007.
[15] Na Dai and Brian D. Davison, Freshness Matters: In Flowers, Food, and Web Authority. Proc. SIGIR’10, pp. 114-121, 2010.
[16] M. Zhukovskii, D. Vinogradov, G. Gusev, P. Serdyukov, A. Raigorodkii, Recency-sensitive model of web page authority. Proc. CIKM’12, pp. 2627-2630, 2012.

Fresh BrowseRank
Алексей Толстиков, Михаил Шахрай, Глеб Гусев, Павел Сердюков
Yandex
Россия 199021 Москва, ул. Льва Толстого, 16
{zhukmax, akhropov, gleb57, pavser}@yandex-team.ru

Перевод текста был взят с сайта.

by Mr. Роман Морозов and & Ms. Наталья Чердак

Вебинар Романа Морозова «Секреты поведенческих факторов»

Секреты поведенческих факторовСоздатели BeWebby сделали профессиональные знания доступными каждому. В образовательном онлайн-центре гуру-интернет-маркетинга проводят бесплатные вебинары по самым различным тематикам.

16 июля в 15:00 по московскому времени состоится вебинар Романа Морозова «Секреты поведенческих факторов»

Вебинар будет полезен для владельцев сайтов и SEO специалистов.
Роман — автор первого проекта по поведенческим факторам userator.ru , SEO занимается с 2002 года.

Роман поделится своим опытом и расскажет много интересного, а именно:

  • Кейсы успешных проектов по поведенческим факторам
  • Боты и люди , разный подход в накрутке поведенческих
  •  Юзабилити и поведенческие механизмы
  •  Усиление ссылок как альтернатива ссылочному продвижению
  •  Социальные воздействия в симбиозе с поведенческими
  •  Работа с браузерами как нестандартный подход в работе

by Mr. Роман Морозов and & Ms. Наталья Чердак