Андреев Игорь рассказывает об основах обработки текста.
- Критерии документа, кодировки
- Уровни лингвистического анализа
- Токены и термины
- Детекция языка: графематический, N-граммный и лексический подходы
- Нормализация
- Проблемы токенизации
- Наличие и отсутствие пробелов
- Китайский, японский, арабский языки
- Ударение и диакритика
- Классы эквивалентности
- Понижение регистра
- Стоп-слова
- Лемматизация
- Стемминг
- Предиктор
- Виды языков
- Статистическое снятие омонимии
- Разбиение текста на предложения
- Расширение поискового запроса