SeoNews.com.ua - SEO & Search Engine News
Поисковая оптимизация
Популяризация токенов способна значительно повысить уровень безопасности в сфере электронной коммерции
Эксперты предлагают заменить передаваемые на торговые серверы финансовые данные электронными идентификаторами, не имеющими ценности для злоумышленников.

Как сообщает издание Network World со ссылкой на доклад одного из крупнейших производителей токенов безопасности, широкомасштабное внедрение такой меры, как дополнительные этапы идентификации, способно в значительной степени сократить количество успешных хакерских атак в сфере электронной коммерции.


Персональные данные граждан РФ будут храниться на российских серверах
Депутаты предлагают изменить дату вступления в силу закона «О персональных данных», согласно которому соцсети и сервисы электронной почты будут обязаны хранить личную информацию пользователей на российских серверах.

Как сообщает издание "Известия", депутаты Госдумы РФ выступили с предложением внести некоторые коррективы в закон «О персональных данных», согласно которому социальные сети и сервисы электронной почты будут обязаны сохранять информацию о конфиденциальных данных граждан РФ на серверах, которые располагаются на территории России. Указ был подписан В. Путиным в июле текущего года, и вступает в действие 1 сентября 2016 года. Тем не менее, госчиновники предлагают ускорить процесс и узаконить перенос личной информации пользователей уже с 1 января следующего года.

Пользователям Wi-Fi в московском метро скоро придется регистрироваться
По просьбе руководства столичного метрополитена компания «Максима Телеком» разработала программное обеспечение, посредством которого будет происходить аутентификация пользователей.

В скором времени все желающие воспользоваться услугами Wi-Fi в Московской подземке смогут сделать это только по регистрации. По просьбе администрации метро компания «Максима Телеком» разработала ПО для аутентификации пассажиров. Новая система будет распознавать посетителей подземки по IMEI-номерам их девайсов, пишут «Известия».

Зарубежным компаниям могут ограничить доступ к российским гостайнам
По предварительным данным, лишиться соответствующей лицензии могут четыре крупнейших аудитора - Deloitte, EY, KPMG и PwC.

Как сообщает издание «Ведомости» со ссылкой на собственных информаторов в двух компаниях из четверки крупнейших зарубежных аудиторов в РФ, отечественные силовые структуры усилили давление на компании и в перспективе могут лишить их возможности работать с данными, представляющими собой государственную тайну.
Началась последняя неделя льготной регистрации на конференцию CEE-SECR «Разработка ПО»
На конференции рассмотрят все аспекты разработки программного обеспечения.

Стартовала последняя неделя льготных летних цен на конференцию CEE-SECR «Разработка ПО» — одно из важнейших событий ИТ-индустрии в России.

До 31 августа регистрационный взнос будет ниже финальной цены на более чем 37%. Кроме того, продолжают действовать специальные предложения для студентов, аспирантов и групп от трех человек. Все скидки суммируются


Seo News
Facebook готовит исправление уязвимости, заставляющей iPhone совершать звонки
Разработчики социальной сети намерены устранить брешь в ближайшем обновлении мобильного приложения для iOS.

Как сообщают представители социальной сети

Facebook, разработчики компании намерены в ближайшее время выпустить обновление безопасности для своего мобильного приложения для iOS-устройств. Речь идет об опасной уязвимости, эксплуатация которой позволяет злоумышленникам удаленно совершать звонки со смартфонов iPhone, принадлежащих жертвам атаки. Для этого достаточно вынудить пользователя перейти по специально сформированной вредоносной ссылке.
95% электронных уведомлений от Facebook успешно шифруются

В Facebook отметили рост количества провайдеров, развертывающих шифрование с помощью STARTTLS.

95% посылаемых Facebook по электронной почте уведомлений, являются зашифрованными. Электронные письма шифруются с помощью свойства протоколов под названием «Совершенная прямая секретность» (Perfect Forward Secrecy, PFS) и строгой проверки подлинности сертификата. Об этом сообщил инженер Facebook Майкл Эдкинс (Michael Adkins), занимающийся вопросами неприкосновенности сообщений пользователей.

Microsoft представит Windows 9 в конце сентября

В ранней версии Windows 9 будет добавлено переработанное меню "Пуск" и, возможно, голосовой помощник Cortana.

В компании Microsoft планируют представить следующую версию ОС Windows во время специального события для прессы, которое состоится в конце сентября. Как сообщает издание The Verge, ссылаясь на собственные источники, в настоящее время представители корпорации собираются рассказать об изменениях в новой версии Windows, получившей кодовое наименование «Threshold» («Предел»), 30 сентября этого года. Напомним, что следующая версия Windows в настоящее время находится в разработке, и в Microsoft планируют выпустить предварительную версию ОС для разработчиков (Developer Preview) 30 сентября или позже.

Google AdWords забанит пейнтбольное и прочее оружие
Менее чем через месяц Google запретит рекламу оружия для страйкбола и пейнтбола, пневматических пистолетов, боеприпасов, обойм и портупей. Жалобы на такую рекламу ранее поступали в Google AdWords Help.

Google опубликовал предварительную версию изменения политики, которая в настоящее время позволяет рекламировать такие товары на AdWords.

Вот образец письма, отправленного рекламодателям AdWords:

«Уважаемый рекламодатель AdWords,

Мы извещаем вас об изменении правил размещения рекламы Google, которые могут повлиять на ваш аккаунт AdWords.


Уязвимость в Windows продолжает создавать опасность для пользователей
Наиболее часто уязвимость CVE-2010-2568 эксплуатировали на ОС Windows XP.

Согласно документу, опубликованному Лабораторией Касперского, злоумышленники продолжают эксплуатировать уязвимость CVE-2010-2568 , несмотря на “возраст” бреши. Недавно Лаборатория Касперского обнаружила десятки миллионов эксплоитов, направленных на устранение ошибки в период с ноября 2013 по июнь 2014 года, которые не устранили ее. Жертвами кибератаки стали 19 миллионов пользователей по всему миру.

Search Engine News
Подпишись на рассылку и будь всегда в курсе наших новостей.

Математическая модель оценки качества страницы

Математическая модель оценки качества страницы
Ашутош Гарг (Ashutosh Garg) является главным технологом компании BloomReach, обладающим десятилетним опытом в сфере информационного поиска, компьютерного обучения и поисковых систем. До этого он более четырех лет проработал научным сотрудником в компании Google, а еще раньше - в научно-исследовательском отделе компании IBM. Ашутош также является автором учебника по компьютерному обучению и более 30 научных статей. Ему также принадлежит более 50 патентов на изобретения. В Индийском технологическом институте в Дели Ашутош получил степень бакалавра менеджмента в области графического дизайна, а в Иллинойском университете Урбана и Шампейна – степень кандидата наук. Ашутош имеет множество наград, включая премию за лучшую диссертацию Индийского технологического института, стипендию компании IBM и премию за выдающиеся исследовательские работы от Иллинойского университета.
В данной статье под качеством страницы имеется в виду качество страницы с точки зрения поискового запроса и пользователя, составившего такой запрос.

Качество страницы представляет собой широкое понятие, а конкретный алгоритм зависит от конкретного контекста, для которого планируется использовать балльную оценку качества. В настоящей статье не рассматривается подробно какой-либо отдельный алгоритм, а описывается структура, позволяющая оценить качество страницы и определить способы ее адаптации к конкретной ситуации.

Качество страницы является крайне важным фактором для:

1. Поисковых систем. Поисковые системы оценивают страницу с точки зрения запроса и применяют такой сигнал, чтобы определить, является ли данная страница релевантной запросу пользователя. Кроме того, применяя балльную оценку, можно решить, является ли одна страница относительно лучше другой страницы.

2. Целевой направленности рекламы. При показе какой-либо рекламы пользователю, программа adnetwork способна оценить саму рекламу и соответствующую целевую страницу, на основании выданного пользователем запроса, и определить, действительно ли такая реклама соответствует поиску, проводимому пользователем.

3. Обнаружения. Страницу можно оценить даже при отсутствии запроса, чтобы определить ее качество и тем самым решить, стоит ли рекомендовать такую страницу конечному пользователю.

В настоящей статье будут рассмотрены различные алгоритмы, применяемые для оценки качества страницы.

Первая группа алгоритмов рассчитывает балльную оценку документа, как функцию конкретного запроса, выданного пользователем:

Оценка информационного поиска. Сообщество систем информационного поиска изучает вопрос о том, как вычислить наилучшую оценку страницы в соответствии с запросом. Это, вероятно, наиболее важная оценка, которую можно применить при определении качества страницы. Данный алгоритм был реализован различными поисковыми системами общего доступа, например, системой Lucene. В случае запроса Q = {q1, q2, q3}, содержащего три слова и страницу Р, для вычисления балльной оценки страницы используются следующие шаги:

1. Использование относительного веса каждого раздела страницы. Стандартную веб-страницу можно подразделить на различные элементы, например, название, заголовки (H1, H2, H3..,), основной текст, жирный текст, крупный текст, мелкий текст (в зависимости от размера шрифта), текст над сгибом страницы (при определенном отображении), ссылки, шаблоны, текст на страницах с указателями, текст на ранее открытых пользователем страницах, текст на изображениях на странице, текст адресов сайтов и т.д. В зависимости от приложения различным элементам страницы можно задать различный вес. Для начала следует понять, каким образом пользователь может обнаружить страницу и составить свое первое впечатление. В случае поиска, пользователь найдет такую станицу, прочитав название и сниппет. Пользователь составит свое первое впечатление, прочитав текст над сгибом страницы.

2. Создание характеристики на основе запроса. Запрос разбивается на n-граммы (биграмма представляет собой фразу длиной в два слова). Затем каждой из таких n-грамм присваивается вес. Например, рассмотрим запрос «canon digital camera» (цифровой фотоаппарат «Кэнон»). В данном запросе слово «canon» является важной униграммой, поскольку оно относится к бренду. «Canon digital» (цифровой «Кэнон») – плохое словосочетание, а «digital camera» (цифровой фотоаппарат) – хорошее. Традиционно для определения веса пользователи применяют численный показатель TF-IDF. Следует быть внимательным при выборе массива данных для вычисления TF-IDF. Он должен быть весьма схожим с массивом данных, на котором проводится определение веса.

3. Качество документа для вычисления оценки TF-IDF. Документ, состоящий из контента всех страниц на сайте, подойдет для любого запроса. Однако иметь дело со слишком большим документом нежелательно. В то же время документ, идентичный запросу, бесполезен, поскольку пользователь не узнает ничего нового, попав на такую страницу. Необходимо проверить, какой платформой пользуется большинство посетителей определенного веб-сайта. Если они используют смартфоны, то идеальной длиной документа является менее 500 слов, если планшеты – 1000 слов, ноутбуки – до 3 000 слов. Рекомендуется применять какой-либо способ нормализации балльной оценки в соответствии с длиной документа. Пользователями систем информационного поиска опубликовано много статей по нормализации балльной оценки информационного поиска на основе длины документа.

4. Простым способом оценки документа может быть:



Страница P состоит из полей di весом wi, а запрос Q состоит из слов qk. Длина страницы – L, количество словосочетаний в запросе –Nq,

где f – функция элемента нормализации, основанная на длине документа.

Какая страница имеет более высокую оценку информационного поиска для словосочетания “Canon digital camera”?



Обе страницы представляют цифровой фотоаппарат «Кэнон», но у одной из них намного более высокая оценка в информационном поиске. Как можно определить, балльная оценка какой страницы отражена в приведенной ниже таблице?



Оценка полезности. Представляет собой оценку, основанную на взаимодействии посетителей со страницей, и отражает, насколько часто посетители находят данную страницу полезной для своего запроса.

Для большинства веб-сайтов существуют способы определения успеха (известного также как конверсия). В случае сайтов интернет-торговли конверсия определяется как покупка продукта или услуги. Для сайтов привлечения потенциальных клиентов конверсия определяется как заполнение формы. Для медийных сайтов это может быть взаимодействие с каким-либо медийным элементом, например, запуск видео или количество просмотров страницы. Для какого-либо запроса можно вычислить коэффициент конверсии и применить его непосредственно в качестве балльной оценки поведения.

Проблема в этом случае заключается в немногочисленности таких данных. На сайте Интернет-торговли коэффициент конверсии может составлять всего лишь 0,5%. Это означает, что в среднем, на каждые 200 просмотров по данному запросу, отмечается одна конверсия. Низкочастотные запросы по определению имеют низкую частоту, что делает такое вычисление невозможным. Данную проблему можно решить несколькими способами:

1. Обобщение уровня запроса. Вычисляется балльная оценка не конкретного, а абстрактного запроса. Например, запрос [canon digital camera] можно абстрагировать следующим образом:
До запроса из трех слов
До запроса с наименованием бренда
До запроса, включающего все слова в названии страницы
2. Теперь можно было бы сказать, каков коэффициент конверсии всех запросов, имеющих длину в три слова, и включающих все слова названия, а также наименование бренда в качестве одного из слов в запросе. Мы видим, что такое обобщение может быть очень широким, либо очень узким. В зависимости от объема имеющихся данных можно выбрать соответствующий уровень обобщения.

3. Альтернативы конверсии, такие как показатель «ненужных просмотров». В то время как коэффициент конверсии может составлять всего лишь 0,5% и менее, показатели «ненужных просмотров» обычно лежат в пределах 20–80%. Это означает, что для оценки качества страницы требуется гораздо меньшее количество ее посещений. Следует быть внимательным, поскольку показатель «ненужных просмотров» не всегда в достаточной степени соответствует коэффициенту конверсии.

Существует вторая группа оценок для страницы, которые вычисляются независимо от запроса. Вот некоторые примеры:

Поведенческая балльная оценка страницы. Существенным показателем качества страницы является то, как ее воспринимают пользователи. Такую характеристику можно измерить с помощью анализа поведения пользователей. Традиционно используются следующие факторы:
1. Балльная оценка конверсии – Вычисляется коэффициент конверсии страницы независимо от запросов, приведших к данной странице
2. Показатель «ненужных просмотров» – Вычисляется показатель «ненужных просмотров» страницы независимо от запросов, приведших к данной странице
3. Количество просмотров страниц – Количество страниц, просматриваемых при посещении сайта, после которых просматривается данная страница
4. Количество повторных посещений данной страницы – Количество посетителей, которые постоянно возвращаются на данную страницу.
5. Сколько пользователей добавляют какой-либо продукт в свою корзину после посещения данной страницы?
6. Среднее количество времени, проводимое на данной странице.

Сигналы, характеризующие поведение, нельзя анализировать изолированно. Они должны анализироваться относительно других сходных страниц. Например, на сайте Интернет-продавца пользователь может сравнить поведение страницы, предлагающей какой-либо продукт, с другими аналогичными страницами.

Простым способом вычисления балльной оценки является:



где fi – значение характеристики (показатель «ненужных просмотров» и т.п.), mfi – среднее значение характеристики fi на всех однотипных страницах, wi является весовым индексом, придаваемым различным характеристикам.

Конверсии можно придать весовой индекс 0,8, а показателю «ненужных просмотров», который является весьма зашумленной характеристикой, – только 0,1. Более сложный способ заключается в определении количества пользователей, которые покидают сайт и выбирают другой результат поиска по тому же поисковому запросу.

Репутация страницы – Ранжирование страницы является отличным способом при определении популярности страницы по сравнению с другими страницами сайта. Другие факторы репутации включают показатель удаленности данной страницы от исходной страницы – количество шагов, необходимых, чтобы попасть на данную страницу при перемещении с исходной страницы.

Качество языка на странице – Можно построить языковую модель для контента, который понравился посетителям сайта, и оценить страницу с точки зрения такой языковой модели. Для моделирования страниц обычно применяются модели HMM. Ниже даны ссылки на некоторые статьи, описывающие языковые модели:

http://dl.acm.org/citation.cfm?id=383970

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.76.1126

http://dl.acm.org/citation.cfm?id=243206

После вычисления всех оценок их следует объединить.

Допустим, оценки включают:

IR (оценка информационного поиска)
B (поведенческая оценка)
R (оценка репутации, или ранжирование страницы)
LM (оценка языковой модели)

Простым способом объединения таких оценок является



Весовые показатели можно регулировать, чтобы отразить, какой вес желательно придать каждой характеристике. Для новой страницы данные о поведении будут минимальны, и ей нужно придать небольшой вес. Однако, если страница существует давно, ее вес должен быть гораздо большим.

Вышесказанное представляет собой хорошую перспективу для вычисления балльной оценки страницы с точки зрения запроса, однако для этого требуется существенное инвестирование в ИТ, что для среднего участника рынка может оказаться невозможным.