Романенко Алексей детально рассказывает о веб-поиске и говорит о спайдер.
- Популярность пользования поиска
- Веб без поисковых систем
- Немного истории
- Основы веб-поиска
- Потребности пользователей
- Как далеко заходят пользователи
- Эмпирическая оценка пользователем результатов
- Эмпирическая оценка пользователем ПС
- Коллекция веб-документов
- Какого размера веб
- Первое поколение поисковой рекламы: Goto (1996)
- Как ранжируется реклама
- Seach ads: есть и минусы
- Спайдер
- Основные задачи спайдера
- Спайдер, вид сверху
- Все ли так просто?
- Что любой спайдер должен делать?
- Явные и неявные правила вежливости
- Robot.txt
- Robot.txt пример
- Выполнение шагов при выкачки
- Основная архитектура спайдера
- DNS
- Парсинг
- Фильтры и Robot.txt
- Распределенный спайдер
- URL frontier: два основных соглашения
- URL frontier: схема Mercator
- Front queues
- Back queue heap
- Freshness
- Freshness vs. Age
- Deep Web
- Sitemaps, пример
- Хранение документов
- Удаление шума
- Поиск блока с контентом