Слово и фраза: Искать: Сортировать по:
Форумы на Sostav.ru / Конкурентная разведка / Аваланч - программа для мониторинга Интернета
Полевые испытания программы Avalanche

Profile
Евгений Ющук©
Конкурентная разведка
Постов: 108
Дата регистрации: 16.11.2006
Я еще в начале лета обещал выложить результаты тестирования программы для мониторинга Интернета Аваланч (Avalanche), созданной Андреем Масаловичем. При испытаниях прежней этой программы были выявлены недочеты, которые я счел серьезными (например, программа "спотыкалась" о некоторые сайты). Разработчики взялись ее полностью переделать. И переделали. Потом была работа по выявлению мелких шероховатостей, проявлявшихся в процессе тестового мониторинга Интернета.
Сейчас можно констатировать, что Аваланч (Avalanche) версии 2.0 показал себя с самой лучшей стороны. Я снабдил отчет пошаговыми скриншотами, показывающими, что делал Аваланч и как выглядят результаты его работы. Поскольку из-за скриншотов страница с отчетом "весит" около 2.5 МБ, я не стану ее всю выкладывать здесь, а дам только два скриншота и текст. Полностью весь материал вы можете увидеть на моем сайте Конкурентная разведка на странице со статьей Полевые испытания программы Аваланч (Avavlanche). Здесь те места в тексте, где на моем сайте размещены скриншоты, выделены так: <Скриншот>.


Полевые испытания программы Аваланч (Avalanche)
Испытывалась программа Аваланч (Avalanche) версии 2.0 образца 2007 года

Программа Аваланч (Avalanche) предназначена для мониторинга изменений, происходящих в Интернете. Она собирает информацию с вэб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных. В любой момент пользователь может провести поиск по этой базе, используя опеаторы Булевой Алгебры, подобные тем, которые используются в Яндексе при формировании поискового запроса в Интернет.

Аваланч существует в двух модификациях по алгоритму работы и в нескольких модификациях по своим возможностям.

Различия по алгоритму работы заключаются в том, что одна из них собирает с заданных адресов все подряд, а вторая - только страницы, на которых произошли изменения с прошлого посещения ее Аваланчем. Я проводил испытания той версии, которая собирает только страницы с изменившимся контентом.

Различия по функциональным возможностям разных модификаций Аваланча более существенны. Я провел работу с самой простой модификациях Аваланча, которая умеет только собирать, сортировать и складировать информацию, а также предоставляет возможность поиска по базе данных. Более сложные (и дорогие) модификации Аваланча позволяют проводить обучение программы с тем, чтобы она анализировала контекст и размещала в соответствующие папки материалы, даже если в тех отсутствуют ключевые слова. Некоторые модификации Аваланча позволяют создавать в Интренете сайт в единственном экземпляре, который содержит все новости по заданным пользователем проблемам. В таком виде новости очень удобны для работы с ними. Есть и такие варианты Аваланча, которые обеспечивают практически полную анонимность работы.

Аваланч состоит из паука и "умных папок". Паук посещает страницы, которые ему предписано посещать, проверяет изменения на них и складывает информацию в базу данных. "Умные папки" самостоятельно сортируют эту принесенную пауком информацию, делая ее удобной для работы. Есть еще такое понятие, как рубрики. Рубрики позволяют работать с базой данных по конкретным запросам, интересующим пользователя в данный момент.

В целом, работа с Аваланчем выглядит следующим образом. Сначала прописываются источники, контент которых будет контролироваться. Это могут быть не только отдельные страницы сайтов, но и страницы поисковых машин, которые появляются по определенному поисковому запросу. Указывается глубина переходов со стораницы по ссылкам. Так, например, с первой страницы Гугла или Яндекса во время испытаний паук переходил по каждой ссылке, расположенной на первой странице поисковика с результатами выдачи. А на той странице, куда он по такой ссылке перешел, он уже не ходил по ссылкам дальше. Это настраиваемая опция.

Я не буду здесь рассказывать, как происходит настройка паука и папок, потому что эти знания в течение одного дня даются на занятиях или подчерпываются из инструкции. Могу сказать лишь, что это не сложно. Я буду показывать работу уже настроенного Аваланча.

Итак, приступим.

Аваланч устанавливается обычно в корневую папку диска C. На рисунке ниже показана папка с установленным Аваланчем. Видны файлы avalanche_spider.exe (это паук), Avalanche.exe (этот файл открывает интерфейс для работы с базой данных), avc12.exe (программа стороннего производителя, которая позволяет сравнивать два файла и находить изменения на вэб-странице, если они неочевидны)





Сначала запускается паук (файл avalanche_spider.exe). Скриншот экрана после запуска паука приведен ниже. Для мониторинга я выбрал главную страницу новостного ресурса Lenta.ru, главную страницу сайта rbc.ru, раздел "тест-драйвы" на сайте autonews.ru, RSS-поток Форума Разведчиков, раздел "вакансии" на сайте одного из крупнейших в России автодилеров - компании "Рольф" и первые страницы результатов выдачи по запросу "Кузнецов Сергей Валентинович" в Яндексе и Гугле.





После запуска паук начинает обход страниц, на которые он нацелен и ссылок с этих страниц на заданную глубину. В процессе работы видно, на каких ресурсах в данный момент паук находится и какой процент от общего количества работы выполнен. Во время работы паука процессор бюджетного ноутбука был загружен на 60-75% и было возможно, хоть и с подтормаживанием, пользоваться электронной почтой и совершать серфинг по интернет-страницам.

<Скриншот>

Закончив работу ,паук сообщает об этом.

<Скриншот>

После этого окно с пауком надо закрыть, а окно самого Аваланча наоборот открыть (запустив файл Avalanche.exe). В главном окне Аваланча видны "Умные папки", по которым уже разложена принесенная пауков информация.

<Скриншот>

Если открыть "умные папки", то видно, что информация в них структурирована по дате.

<Скриншот>

В правой части окна видны страницы, которые Аваланч счел соответствующими критерисям поиска. Можно каждую из них открыть и просмотреть ее контент полностью

<Скриншот>

В левой колонке видно, что если изменений на странице нет, то Аваланч игнорирует такую страницу, принося в базу данных только изменения. Например, видно, что 08.10.07г. на странице "вакансии" компании "Рольф" изменений не было. Эти изменения были 13.09.07 и 19.09.07

<Скриншот>

Эти вакансии можно увидеть, также открыв каждый из источников на конкретную дату.

Вот вакансии компании "Рольф" на 13.09.07 (это первое посещение страницы, поэтому сравнивать было не с чем)

<Скриншот>

А вот та же страница от 19.09.07г., когда Аваланч обнаружил на ней изменения.

<Скриншот>

Как я уже говорил, Аваланч может просматривать не только конкретные страницы сайтов, но и страницы, которые формируются по запросу к поисковым машинам. Вот, например, страница Google по запросу Кузнецов Сергей Валентинович

<Скриншот>

На следующем скриншоте показана страница, которую Аваланч посетил по ссылке с первого результата в выдаче Гугла по запросу: foto.retranslator.ru

<Скриншот>

Проиллюстрирую настройку рубрики. Это способ получить выборку из имеющейся базы данных. Ниже приведен пример уже настроенной рубрики. По такому запросу можно получить все документы из базу данных, в который есть слова "автомобиль" и "Peugeot", и при этом не содержится слово "новый". Видно, что таких документов в базе нет

<Скриншот>

Продемонстрирую настройку новой рубрики. Пусть нас интересует запрос, по которому будут получены документы, где есть слова "Кузнецов" и "Burwell", но при этом нет слова "автор" (для тех, кто не в курсе, напомню, что господин Кузнецов - химик-технолог по образованию, известный в конкурентной разведке тем, что стер имя Helen Burwell с обложки ее книги "Конкурентная разведка через Интернет" и вписал на эту обложку себя). Выбор этого объекта для иллюстрации возможностей Аваланча был связан с тем, что информация об этом объекте не является конфиденциальной, а проверять работу программы можно только на реальных примерах, информация по которым поступает и из других источников. Иначе невозможно оценить полноту и точность работы программного продукта.

<Скриншот>

После создания новой рубрики производится рубрикация, чтобы получить из базы данных данные, рассортированные в соответствии с новыми потребностями пользователя.

<Скриншот>

По завершении рубрикации появляется соответствующая надпись.

<Скриншот>

Теперь, если обратиться к вновь созданной рубрике, станут доступны документы, отвечающие заданным требованиям. Они могут быть, как и раньше, открыты прямо в окне Аваланча.

<Скриншот>

Надо отметить, что чаще всего не возникает сложностей в сравнении старого и нового вариантов контента вэб-страницы, поскольку обычно их хорошо видно. Однако на практике встречаются и такие случаи, когда изменения неочевидны. Ярким примером может служить страница блога на Живом Журнале, когда на ней появляется одна новая гиперссылка, а при этом больше никаких изменений не происходит. Крайне трудно искать такие различия. В то же время, появление подобной гиперссылки может быть очень важным. При испытаниях Аваланча я работал в постоянном контакте с разработчиками этой программы. Хочу отметить, что они быстро и качественно исправляли те небольшие шероховатости, которые нам поначалу встречались. Я уже собирался писать отчет об испытаниях, когда столкнулся с проблемой, что по ссылке из Гугла Аваланч принес страницу блога, как изменившуюся, а я долго не мог увидеть этих изменений. Тогда разработчики Аваланча дали ссылку на программу стороннего разработчика Advanced Visual Compare (она запускается с файла avc12.exe). Программа сравнивает исходные коды вэб-страниц и показывает измененные, добавленные или удаленные элементы на странице.

<Скриншот>

Здесь следует сказать, что файлы хранятся в папке, в которой установлен Аваланч, в виде стандартных пар HTML-файла и txt-файла.

В ходе работы с Аваланчем обнаружился положительный побочный эффект такой формы хранения данных: они хорошо индексируются программой для поиска на персональном компьютере Яндекс Десктоп. За счет этого, помимо поиска с помощью встроенного поискового механизма Аваланча, можно искать информацию и с помощью Яндекс Десктоп, используя стандартный язык запросов Яндекса.

<Скриншот>

В программе Advanced Visual Compare в ыбираются два файла , которые будут сравниваться

<Скриншот>

А затем в исходном коде показано разными цветами, какие изменения произошли и где они находятся

<Скриншот>

Если есть сложности в прочтении исходного кода и привязке его к обычному виду страницы, то для решения этой проблемы можно воспользоваться любой программой, умеющей конвертировать исходный код страницы в ее обычный вид и наоборот. Я покажу это на примере Macromedia Dreamweaver. Скопируем весь исходный код, полученный в программе AVC,, не разбираясь, где есть изменения, а где нет, в Dreamweaver. Затем скопирауем толькоизмененную часть и с помощью CTRL+F найдем его в Dreamweaver'е.

<Скриншот>

После чего выберем режим "Design" и сможем увидеть, где этот выделенный в коде участок расположен на странице сайта, которую видит пользователь в своем браузере..

<Скриншот>

Заканчивая отчет о полевых испытаниях Аваланча, я хочу сказать, что считаю эту программу очень перспективной разработкой, рассчитанной на тех специалистов, которым необходимо автоматизировать мониторинг Интернета. На мой взгляд, Аваланч - следующий шаг для тех специалистов, которым требуется проводить объем работы, когда WebSite Watcher уже не удовлетворяет их потребностей. Аваланч значительно более автоматизирован, чем WebSite Watcher, а самое главное, он имеет собственную базу данных и простой в использовании механизм работы с ней.

Модификация программы, которая попала мне на испытания, является новой. В ней на моих глазах (и с удовольствием могу отметить, что во многом с моей подачи) были устранены многие недочеты, мешавшие использовать эту программу в работе - вроде зависания на отдельных типах сайтов, некорректное отображение некоторых кодировок или отсутствие возможности оперативно найти изменения на странице. Сейчас Аваланч избавился от этих проблем. У меня он работал стабильно, результаты приносил корректные. А опыт общения с разработчиком вселяет уверенность, что даже если выявятся какие-то особо редкие проблемы, они будут оперативно решены. Все вопросы непосредственно по программе, на мой взгляд, лучше адресовать разработчикам по адресу am [собака] inforus [точка] biz

Евгений Ющук,

08.10.2007 г.



Андрей Масалович, как и обещал, разместил ответы на вопросы на отдельной странице. Под заголовком Avalanche 2.0: Ответы на вопросы.
Вы можете задавать разработчикам свои вопросы по электронной почте и они обещали добавлять ответы на приведенную по ссылке страницу

Источник: сайт "Конкурентная разведка"
--------
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь (с)

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей Сайт пользователя 19.10.2007 21:02
цитата
Profile
Дмитрий Петряшов©
Ride the lightning
Модератор
Постов: 2245
Дата регистрации: 08.08.2006
После такого разбора добавить что-либо сложно. Могу сказать, что этот ресурс, при его доработке, сможет сэкономить массу времени тем аналитикам, которые полученные новости вбивают в базу данных. Аваланч это делает автоматически, сохраняя результаты поиска в базу данных с расширением .mdb Следовательно, ее можно открывать в MS Access. Тем, кто владеет этой программой, мжно без особых проблем настроить соответствующие запросы, написать нужные отчеты и т.п. Иными словами, очень перспективная разработка
--------
Маркетинг и конкурентная разведка

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 27.11.2007 18:29
цитата
Profile
КР©
КР
Постов: 5
Дата регистрации: 01.02.2008
уважаемые господа! анонсирую семинар по "Интернет-разведке", который проводится 03-04 марта в Санкт-Петербурге. На семинаре будут представлены алгоритмы работы с Avalanche. Если у кого-то возникнет интерес, готов выложить программу, условия и т.д.

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 01.02.2008 09:56
цитата
Profile
Дмитрий Петряшов©
Ride the lightning
Модератор
Постов: 2245
Дата регистрации: 08.08.2006
для: КР©
Если будет семинар в Москве, выкладывайте информацию...
--------
Маркетинг и конкурентная разведка

Да 0 Нет 0
Пользователь в OffLine Послать приватное сообщение Добавить пользователя в список друзей 04.02.2008 10:00
цитата
В настоящий момент эту тему просматривают: участников - 0, гостей - 2.
Только зарегистрированные пользователи могут оставлять сообщения в этом форуме


Форумы на Sostav.ru / Конкурентная разведка / Аваланч - программа для мониторинга Интернета
© "ООО Состав.ру" 1998-2024

тел/факс: +7 495 225 1331 адрес: 109004, Москва, Пестовский пер., д. 16, стр. 2

При использовании материалов портала ссылка на Sostav.ru обязательна!
Администрация Sostav.ru просит Вас сообщать о всех замеченных технических неполадках на E-mail
Rambler's Top100   18+   Словарь маркетинговых терминов