Google применил технологии Deep Learning для борьбы с поисковым спамом

Сегодня в СМИ

Последнее
- Дуров: демократы требовали от Telegram выдать все данные после штурма Капитолия
  После штурма Капитолия в январе 2021 года руководство мессенджера Telegram получило обращение от представителей
- Microsoft прекратит поддержку пакетов приложений Office 2016 и 2019
  Американская корпорация Microsoft сообщила, что с 14 октября 2025 года полностью прекратит поддержку офисных пакетов
- В Threads могут появиться личные сообщения
  Американская корпорация Meta (признана экстремистской и запрещена в РФ) тестирует новую функцию в сервисе микроблогов
- Apple опустился на вторую строчку в списке крупнейших производителей смартфонов
  Поставки смартфонов Apple упали примерно на 10% в первом квартале 2024 года, сообщила исследовательская компания IDC.
- «Яндекс» заигрывает с подписчиками
  «Яндекс» (MOEX: YNDX) открыл сбор заявок на тестирование сервиса «Плюс Гейминг», позволяющего играть вне зависимости от

Комментарии
- mogzem: Полезная информация для родителей - на что обратит »
- Вадим: Спасибо за новость »
- Анастасия: Очень люблю такую маску! Кстати, мёд тоже :) Ещё я »
- onlinemixx: А спецы америкосов стопроцентов уже давно имеют до »
- onlinemixx: Сколько людей - столько мнений, способов и прочего »

На чем я зарабатываю:

Последние твиты

Где раскручивать сайт:

Архив записей

Google применил технологии Deep Learning для борьбы с поисковым спамом 30 сентября 2014 года | Google

18 сентября был опубликован патент Google на классификацию поискового спама «Классификация ресурсов с использованием самообучающейся сети» (Classifying Resources Using a Deep Network ). Об этом сообщает SEO-эксперт Билл Славски (Bill Slawski).

Запатентованная технология была изобретена разработчиками компании Цинчжоу Ван (Qingzhou Wang), Ю Лян(Yu Liang), Ке Ян (Ke Yang) и Кай Чэнь (Kai Chen).

Последние несколько лет лидер поиска был занят построением самообучающейся сети, известной как Google Brain.

Google Brain – неофициальное название исследовательского проекта Google, посвященного глубокому обучению (Deep Learning). В рамках этого проекта исследователи компании смогли создать примерную модель работы нейронов головного мозга – «нейрональную» самообучающуюся сеть, соединив 16,000 процессоров и подключив её к сети Интернет. Полученная система сумела самостоятельно обучиться распознавать образ котов.

Теперь компания использует эти технологии для идентификации поискового спама, что нашло выражение в разработке патента на его классификацию.

Патент описывает методы, которые включают:

прием входящей информации, содержащей множество характеристик ресурса, в котором каждая характеристика – это значение соответствующего атрибута ресурса;
обработку каждой характеристики, используя соответствующую функцию вложения для генерации одного или нескольких числовых значений;
обработку числовых значений, используя один или несколько нейронных сетевых уровней для создания альтернативного представления о характеристиках ресурса, в котором обработка значений с эластичными параметрами включает применение к ним одного или нескольких нелинейных преобразований;
обработку альтернативного представления входа с использованием классификатора для генерации соответствующей оценки для каждой категории в их заранее определенном наборе, где каждая из соответствующих оценок измеряет прогнозированную вероятность, что ресурс принадлежит к соответствующей категории.

«Предопределенный набор категорий» может включать категорию спама поисковых систем. Оценка категории (category score) для ресурса измеряет предсказанную вероятность, что ресурс является поисковым спамом.

Предопределенный набор категорий может включать в себя соответствующую категорию для каждого из множества типов поискового спама.

Оценки категорий могут быть использованы для:

определения, следует ли добавлять эти ресурсы в индекс поисковых систем;
генерирования и упорядочивания результатов поиска в ответ на поисковые запросы.

Самообучающаяся сеть может быть эффективно использована для классификации ресурсов в категории. Например, ресурсы могут быть классифицированы как являющиеся или не являющиеся спамом, как являющиеся одним из нескольких видов спама или как один из двух и больше типов ресурсов.

«Использование самообучающейся сети для классификации ресурсов по категориям может привести к тому, что поисковые системы будут способны лучше удовлетворить информационные потребности пользователей путем эффективного определения поискового спама и воздержания от предоставления поисковых результатов, определяющих такие ресурсы, пользователям. Или же они смогут предоставить поисковые результаты, которые идентифицируют ресурсы, принадлежащие к категориям, лучше соответствующим информационным потребностям пользователя» — поясняют разработчики в патенте.

Согласно патенту, эта система классификации ресурсов может типизировать ресурсы как «поисковый спам или не поисковый спам». Она не определяет детали веб-спама, но говорит о том, что может выделить его типичные виды, такие как:

контент-спам;
ресурсы, содержащие ссылочный спам;
ресурсы, использующие клоакинг;
и т.д.

Ресурсы на страницах сайта могут включать слова из контента сайта в символьной форме; URL-ы сайта; его тайтл; имя домена; категории или типы объектов, относящиеся к сайту; его возраст. Каждая из этих характеристик может быть использована для расчета вероятности того, что сайт является спам-ресурсом, и определения, индексировать его или понижать в выдаче.

Патент не предоставляет деталей относительно обучения и классификации характеристик в рамках модели машинного обучения, но ссылается на документ, который дает эту информацию: Large Scale Distributed Deep Networks.

Иллюстрация к статье: Яндекс.Картинки

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Мар
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Сегодня в СМИ

На чем я зарабатываю:

Последние твиты

Где раскручивать сайт:

Архив записей

Google применил технологии Deep Learning для борьбы с поисковым спамом

Читайте также

Последние записи

Календарь статей

Последние комментарии