Биграмма – пара соседних слов, интерпретируемая ПС как словарный термин.
Применяется:
- борьба с текстовым спамом;
- ранжирование документов;
- статистика устойчивых словосочетаний.
Пассаж – последовательность слов, ограниченная либо заданным числом слов/символов, либо знаками препинания, либо тегами HTML.
Применяется:
- поиск информации;
- определение уникальности;
- формирования сниппетов.