8 800 555-24-26

Шингл

Термин шингл

Шингл (от англ. чешуйка, ячейка) — звено, из которого строится цепочка предложений, образуя тем самым текст.

Шинглы помогают проверить текстовые материалы на уникальность. В 1997 г. один из сотрудников Yahoo!, Andrei Broder, ввел в обиход метод шинглов, который способен определить, где находится неповторимый контент, а где  обработанный. С развитием оптимизации метод шинглов приобрел наибольшую популярность.

Работа над текстом

В канонизации шингл принимает значение проанализированного отрывка текста. Канонизация – это метод отсечения не несущих смысловой нагрузки слов (местоимения, союзы, предлоги) и знаков препинания от всех остальных слов.

До канонизации: В одном приятном уголке Французской Ривьеры, на полпути от Марселя к итальянской границе, красуется большой розовый отель.

После канонизации: одном приятном уголке французской ривьеры полпути марселя итальянской границе красуется большой розовый отель.

Собираем шинглы

После канонизации текста его разбивают на шинглы. Но сначала следует определиться с их длиной, так как от размера шингла зависит точность анализа. Маленький шингл предполагает кропотливую работу, но высокую точность. Самый маленький состоит из 3 слов, самый большой -  из 8. Шингл из более 8 слов непригоден для определения уникальности, так как неэффективен. Шинглы формируются по цепочке – последнее слово или даже два из предыдущего шингла нанизывается на первое слово следующего шингла.

Приведем пример: первый шингл - одном приятном уголке, второй шингл может быть с вариантами - приятном уголке французской или уголке французской ривьеры.

Алгоритм

Как только весь текст разбили на шинглы, за дело берутся программисты. Они подвергают обработанный текст воздействию специального алгоритма, который сравнивает два шингла из двух разных документов и устанавливает степень совпадений. Данный алгоритм используется поисковыми системами.

Чтобы текст выглядел как можно уникальнее, следует заменять слова синонимами и менять местами абзацы и т.д., то есть полностью изменить форму текста, не изменяя содержания.