SeoNews.com.ua - SEO & Search Engine News
Поисковая оптимизация
Популяризация токенов способна значительно повысить уровень безопасности в сфере электронной коммерции
Эксперты предлагают заменить передаваемые на торговые серверы финансовые данные электронными идентификаторами, не имеющими ценности для злоумышленников.

Как сообщает издание Network World со ссылкой на доклад одного из крупнейших производителей токенов безопасности, широкомасштабное внедрение такой меры, как дополнительные этапы идентификации, способно в значительной степени сократить количество успешных хакерских атак в сфере электронной коммерции.


Персональные данные граждан РФ будут храниться на российских серверах
Депутаты предлагают изменить дату вступления в силу закона «О персональных данных», согласно которому соцсети и сервисы электронной почты будут обязаны хранить личную информацию пользователей на российских серверах.

Как сообщает издание "Известия", депутаты Госдумы РФ выступили с предложением внести некоторые коррективы в закон «О персональных данных», согласно которому социальные сети и сервисы электронной почты будут обязаны сохранять информацию о конфиденциальных данных граждан РФ на серверах, которые располагаются на территории России. Указ был подписан В. Путиным в июле текущего года, и вступает в действие 1 сентября 2016 года. Тем не менее, госчиновники предлагают ускорить процесс и узаконить перенос личной информации пользователей уже с 1 января следующего года.

Пользователям Wi-Fi в московском метро скоро придется регистрироваться
По просьбе руководства столичного метрополитена компания «Максима Телеком» разработала программное обеспечение, посредством которого будет происходить аутентификация пользователей.

В скором времени все желающие воспользоваться услугами Wi-Fi в Московской подземке смогут сделать это только по регистрации. По просьбе администрации метро компания «Максима Телеком» разработала ПО для аутентификации пассажиров. Новая система будет распознавать посетителей подземки по IMEI-номерам их девайсов, пишут «Известия».

Зарубежным компаниям могут ограничить доступ к российским гостайнам
По предварительным данным, лишиться соответствующей лицензии могут четыре крупнейших аудитора - Deloitte, EY, KPMG и PwC.

Как сообщает издание «Ведомости» со ссылкой на собственных информаторов в двух компаниях из четверки крупнейших зарубежных аудиторов в РФ, отечественные силовые структуры усилили давление на компании и в перспективе могут лишить их возможности работать с данными, представляющими собой государственную тайну.
Началась последняя неделя льготной регистрации на конференцию CEE-SECR «Разработка ПО»
На конференции рассмотрят все аспекты разработки программного обеспечения.

Стартовала последняя неделя льготных летних цен на конференцию CEE-SECR «Разработка ПО» — одно из важнейших событий ИТ-индустрии в России.

До 31 августа регистрационный взнос будет ниже финальной цены на более чем 37%. Кроме того, продолжают действовать специальные предложения для студентов, аспирантов и групп от трех человек. Все скидки суммируются


Seo News
Facebook готовит исправление уязвимости, заставляющей iPhone совершать звонки
Разработчики социальной сети намерены устранить брешь в ближайшем обновлении мобильного приложения для iOS.

Как сообщают представители социальной сети

Facebook, разработчики компании намерены в ближайшее время выпустить обновление безопасности для своего мобильного приложения для iOS-устройств. Речь идет об опасной уязвимости, эксплуатация которой позволяет злоумышленникам удаленно совершать звонки со смартфонов iPhone, принадлежащих жертвам атаки. Для этого достаточно вынудить пользователя перейти по специально сформированной вредоносной ссылке.
95% электронных уведомлений от Facebook успешно шифруются

В Facebook отметили рост количества провайдеров, развертывающих шифрование с помощью STARTTLS.

95% посылаемых Facebook по электронной почте уведомлений, являются зашифрованными. Электронные письма шифруются с помощью свойства протоколов под названием «Совершенная прямая секретность» (Perfect Forward Secrecy, PFS) и строгой проверки подлинности сертификата. Об этом сообщил инженер Facebook Майкл Эдкинс (Michael Adkins), занимающийся вопросами неприкосновенности сообщений пользователей.

Microsoft представит Windows 9 в конце сентября

В ранней версии Windows 9 будет добавлено переработанное меню "Пуск" и, возможно, голосовой помощник Cortana.

В компании Microsoft планируют представить следующую версию ОС Windows во время специального события для прессы, которое состоится в конце сентября. Как сообщает издание The Verge, ссылаясь на собственные источники, в настоящее время представители корпорации собираются рассказать об изменениях в новой версии Windows, получившей кодовое наименование «Threshold» («Предел»), 30 сентября этого года. Напомним, что следующая версия Windows в настоящее время находится в разработке, и в Microsoft планируют выпустить предварительную версию ОС для разработчиков (Developer Preview) 30 сентября или позже.

Google AdWords забанит пейнтбольное и прочее оружие
Менее чем через месяц Google запретит рекламу оружия для страйкбола и пейнтбола, пневматических пистолетов, боеприпасов, обойм и портупей. Жалобы на такую рекламу ранее поступали в Google AdWords Help.

Google опубликовал предварительную версию изменения политики, которая в настоящее время позволяет рекламировать такие товары на AdWords.

Вот образец письма, отправленного рекламодателям AdWords:

«Уважаемый рекламодатель AdWords,

Мы извещаем вас об изменении правил размещения рекламы Google, которые могут повлиять на ваш аккаунт AdWords.


Уязвимость в Windows продолжает создавать опасность для пользователей
Наиболее часто уязвимость CVE-2010-2568 эксплуатировали на ОС Windows XP.

Согласно документу, опубликованному Лабораторией Касперского, злоумышленники продолжают эксплуатировать уязвимость CVE-2010-2568 , несмотря на “возраст” бреши. Недавно Лаборатория Касперского обнаружила десятки миллионов эксплоитов, направленных на устранение ошибки в период с ноября 2013 по июнь 2014 года, которые не устранили ее. Жертвами кибератаки стали 19 миллионов пользователей по всему миру.

Search Engine News
Подпишись на рассылку и будь всегда в курсе наших новостей.

Форум технологий Mail.Ru Group: Поиск неточных дубликатов в рунете

Форум технологий Mail.Ru Group: Поиск неточных дубликатов в рунете
9 апреля в Международном информационно-выставочном центре ИнфоПространство прошел пятый Форум технологий Mail.Ru Group. Ведущим Форума выступил вице-президент и технический директор Mail.Ru Group Владимир Габриелян.

Специалисты Mail.Ru Group и других технологических компаний рассказали о последних технологических тенденциях и трендах, а также о решении сложных задач в рамках разработки проектов.

Ведущий программист Mail.Ru Group Алексей Романенко рассказал о поиске нечетких дубликатов в масштабах рунета. Алексей начал с общей постановки вопроса, потом рассказал о существующих алгоритмах и о том, как они используются, и как это реализовано в поиске Mail.Ru.



Реализация многих задач сталкивается с тем, что нужно найти одинаковые или похожие объекты. Это требуется, например, в классификации и кластеризации, в определении зеркала сайта, в поисках плагиата. В рекомендательных системах ― для определения схожих вкусов пользователя. Еще одна из прикладных задач ― находить похожие изображения.

Поиск дубликатов web-страниц нужен для лучшего использования ресурсов. Сокращение скачиваемых страниц сократит нагрузку на сеть, снизит размер индекса и ускорит процесс обработки данных. Кроме того, это упростит ранжирование результатов поиска, исключив из выдачи дубликаты.

По оценкам специалистов компании, в рунете 20-30% страниц считаются дубликатами.

Точные дубликаты ― это, например, зеркало сайта, когда с разных доменов отдается одинаковый контекст. Искать их довольно просто, но на самом деле встречаются они не так уж часто.

Неточные, нечеткие дубликаты ― это, например, динамические страницы, рерайтинг.



Для определения того, что считать дубликатом документа, нужно ввести меру похожести, от 0 до 100%. В итоге нужно посчитать эту меру и выбрать некое пороговое значение, после какого документ будет считаться дубликатом.

Для работы используются следующие алгоритмы.

Шинглирование (Shingling) ― преобразовать множество документов в множество шинглов; k-шингл ― k символов или слов.

Minhashing (Andrei Broder) ― преобразовать большое множество шинглов в короткую сигнатуру; Locality-sensitive hashing (LSH).

Супер-шинглы ― отобрать только те сигнатуры, которые будут похожи с большой долей вероятности.



Формируется множество шинглов, строится для каждого документа, и определяется мера сходности.



Общие слова выделены жирным шрифтом, измененные подчеркнуты. Уникальных шинглов получается 11.

Выбор, по какому количеству слов (k) будет определяться сходство, очень сильно влияет на результат, и зависит и от размера документа, и от количества слов в нем.

Сравнивать большие множества документов ресурсоемко, к тому же хранение большого числа шинглов затратно. Поэтому был предложен алгоритм Min-hashing, который позволяет снизить размер множества. Идея ― представить документ в виде небольшой сигнатуры (вектора) и на этом основании делать вывод о похожести документов.



В итоге получается табличка, которая сформирована следующим образом.



Для каждой хеш-функции выбираем минимальный хеш.

Вероятность того, что мин-хеш документа «а» равен мин-хешу документа «б» говорит нам, что эти документы похожи между собой на 25%.



На практике используется порядка 100 хеш-функций (их количество рассчитывается из количества документов, которые нужно сравнить). В итоге получается вектор из 100 чисел. То есть, в итоге на хранение каждого документа нужно порядка 800 байт.



Но и тут не все просто. Даже на современном оборудовании на вычисление уйдет около трех лет. Поэтом применяется подход «супершинглы».



То есть, будут сравниваться документы, которые похожи между собой с большей вероятностью.

Берется вектор мин-хешей, разбивается на некоторое количество, группируется каждый хеш, и каждая группа хешируется отдельно. В итоге получаем вектор еще меньшей размерности, который содержит уже хеши супершинглов. И есть такое утверждение, что, если хотя бы один из супершинглов у двух векторов одинаковый, с большой вероятностью эти документы похожи между собой.



Мы должны сохранить таблицу супершинглов, затем отсортировать каждую колонку и сравнивать только те строки, у которых значение супершинглов в данной колонке является одинаковым. Это довольно существенно сокращает общее количество операций сравнения, к тому же такой подход хорошо параллелится на вычислительном кластере.

В итоге наш алгоритм выглядит так



Для каждого документа имеется сжатое представление того, что будет сравниваться.

Многие задачи по обработке схожести данных в поиске решаются через MapReduce.



Таким образом мы можем довольно эффективно выполнять функцию группировки по ключу.

Далее Алексей рассказал, как поиск дубликатов реализуется в Mail.ru.

Есть поисковый робот, который ходит по интернету и постоянно скачивает страницы. Соответственно, с некоторой периодичностью данные поступают на вход MapReduce. Данные сразу паруются по размеру. Каждый мапер определяет язык, кодировку этих данных. Затем выделяется смысловая часть документа, на основании которой документ прогоняется через предыдущую цепочку алгоритмов.

И на выходе получаются супершинглы, которые мы сохраняем в HBase ― это большая распределенная база данных, в которой мы храним рунет.



Вторая фаза, синхронная первой ― сканирование базы. Данные поступают на вход второй MapReduce-задачи, где происходит следующее преобразование. Теперь у нас ключом становится хеш супершингла, а значением ― тот DocID, который ему соответствует.

По идеологии MapReduce, все одинаковые хеши поступают на вход одного редьюсера. И им будет соответствовать весь вектор документов, где этот хеш встречался.

Тем самым выполняется задача, которая позволит существенно снизить количество операций сравнения потому, что теперь определено, что, если у всех документов есть какой-то общий супер-шингл, то сравнение будет проходить только между ними.

И в заключение Алексей коснулся вопросов, которые остаются открытыми. Это касается, в первую очередь, фильтрации html-тегов: не ясно, что делать с тегами, которые не несут смысловую нагрузку (, ), а также с javascript, AJAX, Flash. Казалось бы, вырезаем весь тег, оставляем только текст, и считаем. Но на практике получается, что в каком-то случае сайт практически состоит из картинок, где-то мало текста, где то подписи к картинкам, к ссылкам, сами ссылки несут смысловую нагрузку, и нельзя их просто так вырезать потому, что для пользователя это важно. А если вырезать ― то документы окажутся дубликатами, хотя, по факту, это не так.

Другой проблемой являются динамические страницы. Страница может изменяться несущественным образом, при этом для пользователя кардинально отличаться, быть другой. Например, интернет, где представлено большое количество однотипных моделей. При стандартном подходе они будут считаться дубликатами. Но для пользователя это будет неправильно потому, что все это ― действительно разные товары.

Сайты строятся на шаблонах, есть так называемая навигационная обвязка, то есть та область страницы, которая нужна для навигации по сайту. Но, с точки зрения смысла, ее нужно вырезать. И тут серьезный вопрос: что можно вырезать, а что нужно оставить.

Вопрос: При построении шинглов учитывается морфология?

Алексей Романенко: Да. Слова приводятся к канонической форме. А если сразу не ясно, какая форма будет канонической, – то можно сказать, что не настолько страшно это будет влиять. Обычно текст большой, и слов с неоднозначным смыслом не много, потому, что в зависимости от того, как это же слово употребляется далее в разных формах, можно его уточнить.

Вопрос: Как выбрать оригинал из дубликатов, и важно ли это?

Алексей Романенко: У нас много информации по сайтам ― по их посещаемости, по возрасту. По комплексу факторов принимается решение об оригинальности. Если сравниваются документы на одном сайте ― то будет оставлена основная версия, если на разных ― то оригинал. Но, к сожалению, простого способа решения нет. Это решается по совокупности факторов и на основании той информации, которую мы знаем о рунет.

Вопрос: Работа таких систем, как определение дубля, оценивается, как минимум, двумя показателями: точность и полнота. Каковы эти показатели в определении нечетких дублей в поиске Mail.ru, и как это измеряется ― особенно полнота?

Алексей Романенко: Не могу сказать точные цифры. Измеряем. Оцениваем периодически качество работы при участии асессоров, и на основании этого мы можем понять, насколько у нас выполняется точность и полнота.

Вопрос: А учитываются ли картинки?

Алексей Романенко: Картинки не учитываются, обычно фильтруются, мы стараемся брать только текст.