SeoNews.com.ua - SEO & Search Engine News
Поисковая оптимизация
Популяризация токенов способна значительно повысить уровень безопасности в сфере электронной коммерции
Эксперты предлагают заменить передаваемые на торговые серверы финансовые данные электронными идентификаторами, не имеющими ценности для злоумышленников.

Как сообщает издание Network World со ссылкой на доклад одного из крупнейших производителей токенов безопасности, широкомасштабное внедрение такой меры, как дополнительные этапы идентификации, способно в значительной степени сократить количество успешных хакерских атак в сфере электронной коммерции.


Персональные данные граждан РФ будут храниться на российских серверах
Депутаты предлагают изменить дату вступления в силу закона «О персональных данных», согласно которому соцсети и сервисы электронной почты будут обязаны хранить личную информацию пользователей на российских серверах.

Как сообщает издание "Известия", депутаты Госдумы РФ выступили с предложением внести некоторые коррективы в закон «О персональных данных», согласно которому социальные сети и сервисы электронной почты будут обязаны сохранять информацию о конфиденциальных данных граждан РФ на серверах, которые располагаются на территории России. Указ был подписан В. Путиным в июле текущего года, и вступает в действие 1 сентября 2016 года. Тем не менее, госчиновники предлагают ускорить процесс и узаконить перенос личной информации пользователей уже с 1 января следующего года.

Пользователям Wi-Fi в московском метро скоро придется регистрироваться
По просьбе руководства столичного метрополитена компания «Максима Телеком» разработала программное обеспечение, посредством которого будет происходить аутентификация пользователей.

В скором времени все желающие воспользоваться услугами Wi-Fi в Московской подземке смогут сделать это только по регистрации. По просьбе администрации метро компания «Максима Телеком» разработала ПО для аутентификации пассажиров. Новая система будет распознавать посетителей подземки по IMEI-номерам их девайсов, пишут «Известия».

Зарубежным компаниям могут ограничить доступ к российским гостайнам
По предварительным данным, лишиться соответствующей лицензии могут четыре крупнейших аудитора - Deloitte, EY, KPMG и PwC.

Как сообщает издание «Ведомости» со ссылкой на собственных информаторов в двух компаниях из четверки крупнейших зарубежных аудиторов в РФ, отечественные силовые структуры усилили давление на компании и в перспективе могут лишить их возможности работать с данными, представляющими собой государственную тайну.
Началась последняя неделя льготной регистрации на конференцию CEE-SECR «Разработка ПО»
На конференции рассмотрят все аспекты разработки программного обеспечения.

Стартовала последняя неделя льготных летних цен на конференцию CEE-SECR «Разработка ПО» — одно из важнейших событий ИТ-индустрии в России.

До 31 августа регистрационный взнос будет ниже финальной цены на более чем 37%. Кроме того, продолжают действовать специальные предложения для студентов, аспирантов и групп от трех человек. Все скидки суммируются


Seo News
Facebook готовит исправление уязвимости, заставляющей iPhone совершать звонки
Разработчики социальной сети намерены устранить брешь в ближайшем обновлении мобильного приложения для iOS.

Как сообщают представители социальной сети

Facebook, разработчики компании намерены в ближайшее время выпустить обновление безопасности для своего мобильного приложения для iOS-устройств. Речь идет об опасной уязвимости, эксплуатация которой позволяет злоумышленникам удаленно совершать звонки со смартфонов iPhone, принадлежащих жертвам атаки. Для этого достаточно вынудить пользователя перейти по специально сформированной вредоносной ссылке.
95% электронных уведомлений от Facebook успешно шифруются

В Facebook отметили рост количества провайдеров, развертывающих шифрование с помощью STARTTLS.

95% посылаемых Facebook по электронной почте уведомлений, являются зашифрованными. Электронные письма шифруются с помощью свойства протоколов под названием «Совершенная прямая секретность» (Perfect Forward Secrecy, PFS) и строгой проверки подлинности сертификата. Об этом сообщил инженер Facebook Майкл Эдкинс (Michael Adkins), занимающийся вопросами неприкосновенности сообщений пользователей.

Microsoft представит Windows 9 в конце сентября

В ранней версии Windows 9 будет добавлено переработанное меню "Пуск" и, возможно, голосовой помощник Cortana.

В компании Microsoft планируют представить следующую версию ОС Windows во время специального события для прессы, которое состоится в конце сентября. Как сообщает издание The Verge, ссылаясь на собственные источники, в настоящее время представители корпорации собираются рассказать об изменениях в новой версии Windows, получившей кодовое наименование «Threshold» («Предел»), 30 сентября этого года. Напомним, что следующая версия Windows в настоящее время находится в разработке, и в Microsoft планируют выпустить предварительную версию ОС для разработчиков (Developer Preview) 30 сентября или позже.

Google AdWords забанит пейнтбольное и прочее оружие
Менее чем через месяц Google запретит рекламу оружия для страйкбола и пейнтбола, пневматических пистолетов, боеприпасов, обойм и портупей. Жалобы на такую рекламу ранее поступали в Google AdWords Help.

Google опубликовал предварительную версию изменения политики, которая в настоящее время позволяет рекламировать такие товары на AdWords.

Вот образец письма, отправленного рекламодателям AdWords:

«Уважаемый рекламодатель AdWords,

Мы извещаем вас об изменении правил размещения рекламы Google, которые могут повлиять на ваш аккаунт AdWords.


Уязвимость в Windows продолжает создавать опасность для пользователей
Наиболее часто уязвимость CVE-2010-2568 эксплуатировали на ОС Windows XP.

Согласно документу, опубликованному Лабораторией Касперского, злоумышленники продолжают эксплуатировать уязвимость CVE-2010-2568 , несмотря на “возраст” бреши. Недавно Лаборатория Касперского обнаружила десятки миллионов эксплоитов, направленных на устранение ошибки в период с ноября 2013 по июнь 2014 года, которые не устранили ее. Жертвами кибератаки стали 19 миллионов пользователей по всему миру.

Search Engine News
Подпишись на рассылку и будь всегда в курсе наших новостей.

Обзор семинара «Анализ поведения пользователей: сегментируем активность»

Обзор семинара «Анализ поведения пользователей: сегментируем активность»
28 марта исследователь-разработчик из Яндекса Юрий Устиновский рассказал о сегментировании пользовательской активности в сети. Семинар прошел в московском офисе Яндекса и транслировался онлайн и в Твиттере по хештегу #yascience. Видео лекции будет доступно на следующей неделе на странице трансляции.
Юрий отметил, что большинство предыдущих исследований рассматривали действия пользователя за определенный период времени, или же делили активность на сессии в зависимости от заранее определенного периода неактивности. Такие подходы позволяют выделить группы сайтов, которые посещаются с одинаковой информационной потребностью. Однако лучшее качество может быть достигнуто путем автоматического разделения активности пользователей на логические сегменты на основе информационной потребности.



Пользовательская активность ― это действия, которые пользователь совершает в браузере, например, запросы в поисковой системе, переходы по сайтам, источники переходов, клики на ссылки, перемещение между вкладками, скроллинг страницы. Пользовательская активность является одним из самых ценных источников данных о скрытых связях между страницами в сети. Наблюдая и анализируя действия пользователя, можно улучшить работу как браузеров, так и поисковиков.

Информация о пользовательской активности не структурирована. Поэтому, чтобы использовать данные об активности пользователей в сети, нужно очистить их от шума и правильно обработать.

Действие пользователя влечет за собой следующее действие, и, если правильно структурировать их последовательность, можно многое понять о пользователе.

Для структурирования пользовательской активности ее нужно разделить на компоненты. Цель ― понять и смоделировать действия пользователя в течение одной сессии: куда он пойдет дальше с сайта, соответственно, понравился ему сайт или нет; он уходит потому, что устал искать, или потому, что он получил ту информацию, которая была ему нужна. На многие вопросы можно ответить, просто анализируя активность пользователя.

Поведение пользователя состоит из логических сессий, в каждой из которых веб-страницы связаны одной информационной потребностью. Например, пользователь нашел новость про семинар, прочитал информацию о нем. В тексте нашел новое определение. Дальше он пошел в поисковик искать значение этого определения ― это уже будет следующая, новая информационная потребность, и в рамках новой потребности ― уже следующая информационная сессия. Браузерная сессия ― это последовательность посещения страниц в течение дня. Запросная сессия ― это действия пользователя в рамках одного логического поискового запроса.



Пользователь формулирует запрос. Он может получить ответ сразу, или переформулировать запрос, если результаты поисковой выдачи его не устраивают. Сколь бы долго не пришлось переформулировать запрос, в конечном счете, качество выдачи улучшается.

Информация об активности пользователя представляет собой массив данных. Для того, чтобы с ним работать, его нужно разбить на части.

Общепринятый подход не работает в случае, если пользователь возвращается к результатам выдачи и переформулирует запрос. При общепринятом подходе эти действия воспринимаются, как разные сессии.

Далее докладчик рассказал о том, возможно ли уточнить логическое разбиение запросных сессий до уровня браузерных сессий, насколько качественное разбиение дает подход, основанный на периоде неактивности, как разные алгоритмы кластеризации влияют на качество сегментации, и какие источники факторов важны для логической сегментации.

Сегментацию логических сессий можно свести к двум задачам: попарной классификации и последующей кластеризации.



Входные данные, которые используются ― это сырая браузерная сессия. Основываясь на этих данных, можно в два шага построить сегментацию.

Попарная классификация ― это определение, с одной ли целью пользователь посетил пару страниц. Кластеризация ― это разделение полученных данных на связанные части.



Набор оценок собирается из результатов работы асессоров. Для каждой пары извлекаются факторы. На основании полученных данных обучается классификатор.

Веб-страницы можно классифицировать по 4 группам факторов: URL, текстовые данные, особенности сессий, общий контекст.



Кластеризация веб-страниц может происходить в режиме реального времени или после завершения дневной сессии.



Кластеризация улучшает классификацию данных: точность классификатора выше при использовании метода Greedy merging.



Первый метод ― определение максимального правдоподобия последней страницы. После каждой новой страницы мы решаем, к какому кластеру отнести следующую страницу, связана ли она по смыслу с предыдущей, или это уже началась новая сессия.

Нужно найти подходящий баланс, исходя из задачи: если есть потребность в том, чтобы алгоритм работал быстро, придется жертвовать качеством.

Второй метод ― определение максимального правдоподобия всех страниц.



Третий метод ― разбить активность для целого дня и объединить текущий набор документов в кластеры.



И последним методом объединяем существующие кластеры.

Юрий отметил, что самым эффективным пока показал себя первый алгоритм.

Из факторов можно выделить десять лучших (в очках):
Время между d1 и d2 ― 1
LCS (длина общей сессии) ― 0,58
LCS/length(URL1) ― 0,40
LCS/length(URL2) ― 0,40
# страниц между d1 и d2 ― 0,33
Триграммное совпадение URL ― 0,32
Контекстный LCS/length(URL1) ― 0,32
Один хост ― 0,22
Контекстный LCS/length(URL2) ― 0,20
Контекстный LCS ― 0,20
Для исследования использовались сырые данные: полностью анонимизированные браузерные логи, собранные с помощью специального тулбара. Учитывались переходы по ссылкам на общедоступные страницы, время посещения, источники и цели ссылки, текст страницы.

Каждая браузерная сессия была вручную поделена на логические сессии асессорами. Сырая сессия дает большое количество размеченных примеров для классификатора.

Анализ был проведен на основании 220 браузерных логических сессий. Для обучения классификатора использована 151 тысяча пар (78 тысяч ― из одной сессии, 73 тысячи ― из разных сессий). Средняя длина логической сессии определена в 12 страниц, среднее число логических сессий ― 4,4.

Принадлежность к одной сессии определялась по расположению в сессии, последовательности, и по URL. Сессионные связи между страницами гораздо полезнее для определения близости между страницами, чем их контент.

Вопрос: Вы проводили классификацию по четырем группам факторов. А не пробовали ли вы ввести факторы на основе самого пользователя, например, по специфике запросов? Например, сессия IT-шника может быть длиннее, чем 12 страниц, и логических сессий будет явно больше.

Юрий Устиновский: Нет, мы такого не делали, но я думаю, что пользовательский фактор сильно улучшит качество работы алгоритма.

Вопрос: Как давно проводится исследование, и можно ли уже говорить о каких-то тенденциях и закономерностях?

Юрий Устиновский: Исследование проводилось с конца 2012 года, и больше замеров не производилось, алгоритм не переобучали.

Вопрос: Какую еще можно получить информацию о том, что пользователь делал на странице? Что еще планируете учитывать? И чего вы добиваетесь, какие задачи сможете решать, разделив сессии?

Юрий Устиновский: Про взаимодействие со страницей есть разные данные ― переходы по ссылкам, скроллинг, переходы по вкладкам. Данное исследование ― об обработке сырых данных для дальнейшего использования. Если говорить о применимости, то вот пример. Есть портал. И мы хотим определить, как на нем себя ведет пользователь. Мы хотим понять, нравится ли ему. Пользователь приходит и уходит. И можно определить, почему он уходит: потому, что не нашел ответ по своему запросу и устал искать, или потому, что нашел то, что ему было нужно.