Романенко Алексей рассказывает о поиске дубликатов в Web-е. Говорит о различных приложениях и знакомит с Shingling, Minhashing и Locality-Sensitive Hashing.
- Сравнение документов
- Пример: точные дубликаты
- Пример: версия для печати
- Пример: неточные дубликаты
- Пример: поиск похожих документов
- Три основных этапа для определения похожих документов
- Основная схема
- Шинглы
- Основная модель данных
- Похожесть колонок
- План: поиск похожих колонов
- Предупреждения
- Сигнатуры
- Minhashing
- Реализация
- Отбор кандидатов из сигнатур Minhash
- Locality-Sensitive Hashing
- Распределение по корзинам
- Поиск дубликатов в web