словник | перекладачка | факти | тексти | програми
щодо | посилання | новини | гостьова книга | пошук
початок << тексти  << автор  << зміст  << сторінка

Заняття 9. Пошук інформації в Інтернеті під час роботи з індексним каталогом AltaVista
9.1. Загальна характеристика індексного  каталогу AltaVista
Якщо Yahoo не може знайти в своєму каталозі нічого такого, що відповідало б ключовим словам, замість результатів пошуку на екрані з'явиться посилання на Additional sites provided by Open Text "додаткові посилання, знайдені системою Open Text". Річ у тім, що фірма Yahoo, окрім власного каталогу багатств WWW, користується також послугами однієї з пошукових систем другого типу – автоматичного індексного каталогу Open Text. Якщо пошуки за осмисленими категоріями і складеними людьми описами не дали позитивного результату, цілком логічно скористатися послугами системи, що забезпечить пошук (з тим самим набором ключових слів) усіх текстів у мережі WWW.
Посилання на декілька пошукових систем присутні в кінці кожної сторінки Yahoo з результатами пошуку. Ці посилання зручні тим, що Yahoo сам впише потрібні ключові слова в бланк викликаної пошукової системи.

Невдалі пошуки в Yahoo найчастіше свідчать про те, що користувач цікавиться занадто вузькою темою (або вибрані ним ключові слова погано співвідносяться з його темою). Звичайно, це не означає, що WWW не має потрібної користувачу інформації. Просто знайти її буде складніше, і для її пошуків доведеться скористуватися не каталогом, а більш примітивними, більш автоматизованими і тому більш всеохоплюючими системами.

Проте, тут ми будемо говорити не про Open Text, а про індексний каталог AltaVista за адресою http://www.altavista.com. Ця система з'явилася на інформаційному ринку зовсім недавно (в грудні 1995 року). AltaVista – одна з найбільших за обсягом з усіх пошукових індексних систем. Не менш важливо й те, що вона має найпотужніші і найгнучкіші правила побудови запитів.

Крім стандартних функцій автоматичного індексного каталогу, AltaVista пропонує ще одне несподіване застосування своєї пошукової системи, а саме статистику вжитку і/або напису тих чи інших термінів. Для цього досить послати автоматичному індексному каталогу два запити на пошук цих слів у WWW. У верхній частині сторінки з результатами пошуку AltaVista сповістить користувача про кількість ужитків (word count) кожного з цих слів. Це дає підставу зробити багато цікавих висновків. Наприклад, при пошуку ключового слова "intranet" через систему AltaVista остання повідомляє про те, що кількість матеріалів в мережі Інтернет з терміном Intrаnet (корпоративні мережі) перевищило 100 000 за неповні 2 роки (1995-96 рр.). Це свідчить про стрімке зростання інтересу до Intranet (корпоративних мереж) у світі.

Аналогічним чином можна одержати статистику популярності різноманітної наукової або суспільної тематики з різних сфер людської діяльності.

Власне, AltaVista розуміє дві різні мови запитів. На першій сторінці AltaVista користувач бачить бланк для простого запиту (Simple Search). Панель заголовку вгорі сторінки містить кнопку Advanced Search, натиснувши яку можна одержати бланк для ускладненого запиту.

9.2. Процедура пошуку інформації в Інтернеті під час простого і ускладненого пошуку
Простий пошук (Simple Search)
Найпростіший і найбільш уживаний засіб складання запиту – ввести через пропуск кілька ключових слів, наприклад: мова програмування Ада
Проте такий метод, цілком придатний для Yahoo, тут може дати завелику кількість результатів, багато з яких будуть непотрібними. Тому найчастіше запити треба ускладнювати.
Слід звернути увагу на те, що користувачеві треба знайти документи, в яких слова "мова програмування" стоять поряд, тобто являють собою термін-словосполучення. Якщо на це не зважити, можна натрапити на документи, в яких ідеться про мову художньої літератури і лише випадково згадано "програмування". Для того, щоб система здійснила пошук за словосполученням в цілому, треба його взяти у лапки: "мова програмування" Ада
Якщо користувач, замовивши такий пошук, з'ясує, що 99% статей про мови програмування присвячені Паскалю (а потрібна саме Ада!), можна буде виключити з результатів усі документи, що містять слово "Паскаль", приписавши його зі знаком "мінус": "мова програмування" Ада - Паскаль
Слово без жодного знаку діє в запиті так само, як і зі знаком "плюс".
На відміну від Yahoo, за умовчанням AltaVista шукає входження цілих слів, тобто замовлені терміни повинні стояти в документі відокремлено, а не бути частиною інших ланцюжків символів. Якщо треба знайти всі входження слова, навіть коли воно є частиною інших слів, слід скористатися символом "*". Наприклад, Ада* дасть усі тексти, що мають "Ада", "Адам", "Адажіо" тощо.
Слід пам'ятати, що символ * діє з деякими обмеженнями. Зірочка може стояти тільки в кінці слова. Щоб уникнути завелику кількість результатів, слово, що закінчується на *, повинно складатися менш як з трьох літер. Крім того, символ * дає змогу знайти не будь-яке закінчення слова, а таке, що має завдовжки не більше п'яти символів і не містить великих літер або цифр.
Великі і малі літери в запитах AltaVista теж обробляє дещо незвично. У більшості випадків система не звертає уваги на різницю між ними. Якщо замовити слово "ада", система знайде "ада", "Ада" і "АДА". Проте, якщо задати "аДа", користувач одержить тільки ті документи (якщо вони взагалі існують), в яких це слово написане саме так.
Можна задати, наприклад, пошук за запитом – "Харківська державна академія культури". Внаслідок пошуку на екрані з'явиться перелік і адреси документів (статей, монографій та ін.) викладачів ХДАК.
Ускладнений пошук (Advanced Search)
Бланк для ускладненого запиту відрізняється від простого насамперед наявністю двох полів для введення ключових слів. Друге з цих полів під назвою Results Ranking Criteria "критерії ієрархії результатів пошуку", насправді повністю аналогічне полю введення з бланка простого пошуку. В ньому можна послуговуватися тими самими спеціальними виразами, лапками і знаками +, - ,*.
Проте, тут це поле має лише допоміжну функцію, визначаючи порядок сортування одержаних результатів. Документи з ключовими словами з поля Ranking стоятимуть у списку першими. Ключові слова для власного пошуку треба вводити в перше поле Selection Criteria "критерій відбору".
Запити в цьому полі будуються за іншими правилами, аніж у полі Ranking або під час простого пошуку. Замість символів +, - ,* тут можна вживати спеціальні оператори та дужки, будуючи з них логічні вирази для пошуку. Існує чотири оператори: AND, OR, NOT та NEAR.
- AND (або символ "&") зв'язує ключові слова операцією "логічного І": документ повинен містити обидва слова, об'єднані цим оператором.
- OR (або символ "1") зв'язує ключові слова операцією "логічного АБО": документ повинен містити принаймні одне з слів, об'єднаних цим оператором.
- NOT (або символ "!") змінює смисл ключового слова або цілого виразу на протилежний: наприклад, якщо "А & В" вимагає присутності як А, так і В, то"! (А & В)" видасть усі документи, окрім тих, у яких А і Б містяться одночасно.
- NEAR, або символ "- " ("оператор близькості", proximity operator), означає, що два або більше ключових слова мають бути розташовані в шуканому тексті близько одне від одного. Наприклад, якщо написати "Борис - Петренко", то у відповідь з'являться документи, що містять рядки "Борис Петренко", "Петренко Борис", "Борис Вікторович Петренко" тощо. "Близько розташованими" AltaVista вважаєслова, між якими стоїть не більше десяти інших слів.
Вищеназвані оператори мають різний пріоритет: в будь-якому виразі спочатку виконується оператор NEAR, потім NOT, за ним AND і, нарешті, OR. Щоб змінити порядок виконання операторів, треба скористатися круглими дужками.
Такий синтаксис побудови запиту припустимий тільки для поля Selection Criteria, тоді як набір і порядок розташування результатів залежать від вмісту обох полів: Selection Criteria та Results Ranking Criteria. Тут можливі три випадки:
- якщо поле Selection містить певний вираз, а поле Ranking залишається порожнім, результати, що задовольнять запит, будуть видані без будь-якого сортування;
- якщо обидва поля містять той самий набір ключових слів без будь-яких операторів (або якщо поле Selection залишається порожнім), відповідь буде така сама, що й у разі простого пошуку з цими ключовими словами; результати будуть відсортовані за кількістю і розташуванням ключових слів;
- якщо поле Ranking містить слова, яких немає в поле Selection, ці слова виступають як додатковий обмежувач пошуку (тобто вони немовби дописуються до всього виразу в полі Selection через оператор AND), а результати сортуються за наявністю в них тільки цих додаткових слів.
Крім того, внизу бланка пошуку є два поля для введення дат. Вони дають змогу задавати час створення або змін документів, цікавих для користувача. Це має сенс для періодично оновлюваних документів, наприклад, зведень про погоду.
9.3. Пошук документів українською або російською мовою.
Здійснювати пошуки в каталозі Yahoo за українськими або російськими ключовими словами немає жодного сенсу: співробітники цієї служби цих мов не знають. Сервери WWW з україно- і російськомовною інформацією можуть потрапити до каталогу Yahoo, але у вигляді англомовних описів. Проте AltaVista надає інші можливості. Цей безсловесний робот добросовісно "підшиває" в свою базу даних тексти будь-якою мовою, не звертаючи уваги на державні або лінгвістичні кордони. Тому майже всі правила пошуку в індексному каталозі AltaVista, про які ми говорили вище, в цілому придатні і для пошуку за українськими та російськими ключовими словами. Користувач має лише переключити клавiатуру на кирилицю, ввести ключові слова в бланку пошуку і натиснути кнопку Submit. Проте тут є й деякі тонкощі.
Описаним вище способом можна знайти тільки документи в кодовій таблиці Windows (СР1251). Щоб знайти документи в кодировці КОИ8, які також індексуються на AltaVista, треба мати не тільки шрифти в цьому кодуванні, а й задати ключові слова в КОИ8.
Під час пошуку українських або російських слів слід пам'ятати не тільки про кодування, а й про особливості цих мов – змінність закінчень слів: є сенс майже у кожного слова в запиті замінити останні кілька літер на символ "*".
У разі невідповідності кодування кирилиці (українського та російського текстів) треба скористуватися пунктом Uncoding меню Option (версія Netscape Navigator 4. x) і пунктом Document Uncoding меню Option (версія Netscape Navigator 3. x)
Найпростіший і найбільш уживаний засіб складання запиту – ввести у основному вікні через пропуск кілька ключових слів англійською мовою. В полі Search ввести – The Web, а в полі For documents in вибрати українську або російську мови.
9.4. Методика аналізу результатів пошуку на AltaVista.
AltaVista, як і Yahoo, видає результати пошуку у вигляді списку посилань на документи, але, замість опису кожного документа, поряд з його заголовком можна побачити просто перші кілька рядків його тексту. Якщо буде знайдено більше десяти документів, AltaVista розіб'є їх список на сторінки по десять посилань на кожній.

Така форма подання результатів називається "стандартною" (standard). В бланку пошуку можна вибрати одну з двох інших форм подання: "детальну" (detailed), що майже нічим не відрізняється від стандартної, і "стислу" (compact).

Для спрощення орієнтування в результатах AltaVista сортує їх так, щоб на першому місці стояли "найважливіші" документи з ключовими словами користувача. При визначенні ступеня цієї важливості враховуються такі фактори (в порядку зменшення значимості):
- чи входять ключові слова до заголовку документа;
- чи містяться ці слова в перших кількох рядках документа;
- наскільки близько один до одного розташовані ключові слова в тексті.

Контрольні запитання і завдання до заняття 9
1. Якими мовами можна робити запити до індексної пошукової системи AltaVista?
2. Поясніть методику складання запитів у пошуковій системі AltaVista для простого пошуку з використанням символів:" ", –,* та ін.
3. Яке кодування використовуються для відтворення Web-документів, написаних кирилицею? За допомогою якого пункту меню?
4. Що треба додати в текст запиту для одержання зі складу Web-документів спеціальних елементів (заголовків, гіпертекстових посилань, графічних файлів із зазначеними іменами тощо)?
5. Поясніть вміст і методику формування запитів під час ускладненого пошуку з використанням операторів логічних І, АБО, OR, NOT, NEAR та ін.
вгору
 
Без реклами
2004-03-31 15:12:10
TopList
© 2000-2003, Київ, Соломко Валентин -- ідея та наповнення, графічне опрацювання -- проєкт дизайн, змiнено -- 08.06.2003 14:26:52