Современные методы и средства построения систем информационного поиска. Лекция 3. Основы обработки текста. Андреев Игорь
Андреев Игорь рассказывает об основах обработки текста. Критерии документа, кодировки Уровни лингвистического анализа Токены и термины Детекция языка: графематический, N-граммный и лексический подходы Нормализация Проблемы токенизации Наличие и отсутствие пробелов…
Поделиться