Obecné informace o vyhledávání pomocí počítače
CI: obsah přednášky
Poslední změna: 7.3.2000
I. Úvod
Výrobci databází a dodavatelé
databází umožňují prohledávat soubory, které se nacházejí mimo naši
geografickou oblast pomocí technik online vyhledávacích technik databází.
Průmysl online databází se nyní nachází ve svém třetím desetiletí existence
a během této doby bylo vyvinuto mnoho důmyslných vyhledávacích technik
Každý dodavatel nabízí řadu databází, některé z nich jsou specifické
pro disciplinu (chemie, fyzika atd.) a jiné se zabývají problémy orientovanými
na nějaké globální téma jako např. energie nebo životní prostředí, takže
zahrnují mnoho disciplin. Pokud jste připojeni k systému dodavatele databáze,
je možné provádět vyhledávání v několika databázích současně (multi-file
searching).
II. Cena a přínosy online vyhledávání
Cena komerčního online
vyhledávání obvykle není pevná, ale závisí na několika faktorech, včetně
telekomunikačních poplatků, době připojení k dodavatelovu počítači, licenční
poplatky za informaci získanou z databáze (známé jako HIT CHARGES), a také
poplatky za počet vyhledávácích termínů ve vyhledávací strategii (viz př.).
Přínosy plynoucí z používání online databází zahrnují:
-
Vyhledávácí příkazový jazyk je stejný pro všechny databáze v systému tohoto
dodavatele. (Bohužel, zatím se dodavatelé příliš nesnaží přijmout společný
příkazový jazyk - Common Command Language.)
-
Je možné prohledávat více ročníků databáze než při použití jiných formátů
databáze, jako je CD-ROM, a všechny tyto ročníky je možné prohledávat současně.
-
V případě problémů vám pomohou specielně školení zaměstnanci dodavatele
v oddělení informací (Help Desk, STN's Help Desk: 1-800-848-6533).
STN International je v současnosti jediný online dodavatel, který zpřistupňuje
abstrakta z Chemical Abstracts, tj. souboru CA.
Podobně STN a Questel jsou jediní dodavatelé, kteří poskytují vyhledávání
pomocí struktur v kompletním souboru sloučenin "CAS Registry File". Podmnožina
kompletní databáze CA je dostupná v "CA Student Edition" na vyhledávacím
systému OCLC.
III. Logické vyhledávácí operátory (Boolean Search Operators)
Online vyhledávací systémy nabízejí možnost použít logické vyhledávací
operátory, které ukazují logické vztahy mezi různými koncepty. Viz "Operators
for Relating Search Terms" pro příklady logických operátorů používaných
na STN. Nejběžnější logické operátory jsou:
-
OR - slova spojená operátorem OR jsou synonyma nebo v určitém smyslu příbuzná
slova. Cíl je rozšířit rozsah vyhledávání zahrnutím akronymů, zkratek,
podobných slov, které mohou být použity při indexování dokumentů v databázi.
Jeden dokument v odpovědi může obsahovat pouze jedno ze slov, jiný dokument
může obsahovat jiné, jiný máže obsahovat dvě, tři nebo všechna slova obsažená
v OR příkazu. OR způsobí zahrnutí všech takových dokumentů do odpovědi.
Př: koláč OR dort OR cukroví
-
AND - kombinací rozdílných slov pomocí AND operátoru se zajistí, že v každém
nalezeném dokumentu budou obsažena všechna slova.
-
NOT - slovo, před nímž je uveden tento operátor, není uvedeno v nalezených
dokumentech
Př 1: (dort AND zmrzlina) NOT čokoláda
najde všechny dokumenty v nichž se hovoří
o zmrzlině a současně i o dortu, ale v žádném z nich
se nevyskutuje zmínka o čokoládě
Př 2: (koláč OR dort OR cukroví) NOT čokoláda
Hlavní rozdíl mezi logickým operátorem OR a slovem or (anglicky "nebo")
je, že hovorovým "nebo" se obvykle myslí pouze jedna z uvedených možností,
kdežto logické OR umožňuje jak jen jednu z možností tak i obě současně.
Podobně jako v hovorovém jazyce spojka a (AND - anglicky "a") tak i logický
operátor AND se používá ke spojení podobných i rozdílných věcí dohromady.
V příkladech uvedených výše si můžete představit, že (dort AND zmrzlina)
musí být v jedné míse (dokumentu) aby vyhovovaly vyhledávacím požadavkům,
naproti tomu (koláč OR dort OR cukroví) znamená, že každá věc může bých
v rozdílných miskách (documentech).
Co by se stalo v NOT příkladech, kdyby čokoládový dort byl jediný dostupný
dort? V prvním případě bychom byli bez dezertu. V druhém případě bychom
dostali alespoň koláč nebo cukroví (pokud by samozřejmě nebyly čokoládové).
NOT operátor se musí v online vyhledávání používat opatrně, protože může
vyloučit některé dokumenty, ve kterých je sice vylučované slovo, ale mohou
tam být i slova, která nás zajímají.
Existuje ještě několik specifických variací operátoru AND, které
mohou definovat prostorové vztahy vyhledávacích slov. Nazývají se POSIČNÍ
(POSITIONAL) nebo PROXIMITNÍ (PROXIMITY) OPERÁTORY. Jejichž
formát se může lišit u různých systémů. U STN to jsou operátory:
-
(A) - slova musí sousedit bez ohledu na pořadí*
-
(W) - slova musí být v uvedeném požadí za sebou*
-
(L) - slova se musí vysktyovat ve stejné logické jednotce (poli)
-
(S) - slova musí být ve stejné větě uvnitř téhož pole.
-----------
* Na STN operátory (A) a (W) mají stejný význam ve všech souborech;
ostatní operátory mohou dávat rozdílné výsledky v závislosti na prohledávané
databázi.
STN předpokládá, že několikaslovné fráze bodou vyhledávány pomocí (W) operátoru,
pokud nejsou uvedeny žádné jiné operátory.
IV. Použití rozšiřování termínů (TRUNCATION) (maskování
znaků) při vyhledávání
Rozšiřování termínů je vyhledávací technika, která umožňuje vyhledat
více než jeden tvar slova pomocí jednoho příkazu. Rozšíření se provede
tak, že se k základu termínu (slova) připojí znak se specielním významem
(různé znaky jsou používány různými systémy). Rozšiřování termínů lze provádět
na pravém či levém konci termínu (slova), nebo uprostřed termínu. V jednom
termínu jsou tak zahrnuty různé verianty slova, lišící se např. koncovkou.
Dokonalejší systémy umožňují definovat počet rozšíření na právě jeden znak,
určitý počet znaků nebo neomezený počet znaků.
Viz:
pro příklady rozšiřování termínů u STN.
STN nyní umožňuje všechny typy rozšiřování v "CA File Basic Index".
Limit počtu termínů, které mohou být zahrnuty do vyhledaných výsledků pomocí
rozšíření je dan počtem 30000 zakladů slova (tj. pouze prvních 30000 rozdílných
termínů, jejichž základ slova odpovídá zadání se bere v úvahu při vyhledávání).
Pro rozšiřování zleva musí mít vyhledávácí termín alespoň čtyři znaky.
V. Zalogování a odlogování (připojení a odpojení, logging
on and logging off)
Jeden způsob jak získat přístup k systému STN International je pomocí telefonní
linky a modemu.
Jiný způsob je přístup k STN pomocí programu telnet přes Internet,
za použití adresy STNC.CAS.ORG nebo TN.FIZ-KARLSRUHE.DE.
Všechny komerční systémy které požadují poplatky za online vyhledávání
v jejich databázích, vyžadují identifikační jméno (loginid) a heslo (password).
Pro STN akademický program pomocí telnet by postup pro zalogování byl
následující. Údaje zadané uživatelem jsou uvedeny tučně. "(CR)" znamená
stiskněte klávesu "Enter":
telnet stnc.cas.org (CR)
(CR)
Welcome to STN International! Enter x: i (CR) (1)
LOGINID: dummyid (CR)
PASSWORD: ######### (Vložte heslo a CR) (2)
TERMINAL (ENTER 1, 2, 3, OR ?): 3 (CR) (3)
* * * * * * * * * Welcome to STN International * * * * * * * * * *
[Zde se objeví nové zprávy. Jste připojeni, běží čas, za který
se platí]
[vyběr databáze, kterou chcete prohledávat:]
=> file lreg (CR)
[Zde se vyhledává, tj. zadáte vyhledávácí příkazy, prohlížíte
výsledky vyhledávání,....]
...
[Skončili jste vyhledávání, odpojíte se od systému:]
=> log y (CR)
[Teď již jste odpojeni]
Pozn.:
(1) "i" znamená, že vstupujeme do omezeného
účtu Akademického Programu. Uživatelé s plným přístupem vkládají v tomto
místě "x".
(2) LOGINID se objeví na obrazovce, jak ho
píšete, ale při zadávání hesla se objevují pouze znaky #########.
(3) Po připojení lze vybrat typ terminálu:
-
1 - HP 2647 (A or F) terminal loaded with the GSI program.
-
2 - Tektronix 401x compatible terminal (e.g. Tektronix 4012). Use this
for graphics display.
-
3 - Any network-compatible text terminal. Use this for text display.
Jakmile jste připojeni k systému STN, prompt (tj. znaky, které se objevují
na začátku řádky v okamžiku, kdy systém očekává zadání příkazů od uživatele)
je =>
STN Messenger vyhledávácí program předpokládá, že jste začínající vyhledávač,
pokud používáte celá slova jako příkazy. Některé příkazy mají jednopísmenové
ekvivalenty, které, když je používáte, signalizují programu Messenger,
že nechcete být programem dotazováni na všechny informace, které systém
potřebuje k provedení vyhledávání. V tom případě nastaví systém DEFAULTNÍ
(předvolené) parametetry.
Základních pět příkazů STN, s jejich jednopísmenovými zkratkami (pokud
je mají) je:
-
File - výběr databáze
-
Expand (E) - ověření, že termín se vyskytuje v databázi
-
Search (S) - provedení vyhledávácího dotazu
-
Display (D) - zobrazení výsledků vyhledání
-
Logoff - odpojit se od systému
"Základní
STN Příkazy" dá podrobější informace.
VII. Databáze (files) "CA" a "Registry" na STN
V databázích (files) dostupných v CAS ONLINE Akademickém progaramu jsou
učící databáze, které odpovídají:
CA File, bibliografická databáze s více než 12,000,000 záznamy od January
1, 1967 do dneška. Obsahuje plné indexování a abstrahování původních dokumentů.
Příklady lze nalézt na LCA
database summary sheet. (kopie zde)
Registry File, databáze obsahující informace o více než 14,000,000
sloučeninách, včetně CAS registračního čísla (Registry Number), CAS indexového
jména (CAS Index Name), jiných chemických jmen, vzorce. CAS REGISTRY
NUMBER (registrační číslo CAS) je unikátní číslo přiřazené každé chemické
sloučenině v Registry File. Např. pro isatin to je 91-56-5. (Příklady vyhledávání
v Registry File a nalezené záznamy viz LREG
database summary sheet., kopie zde)
"Database summary sheets" mají příklady záznamů v odpovídajících
databázích. Omezení vyhledávání na specifické části záznamu (pole)
se provede použitím dvoupísmenového kódu, kterému přechází lomítko. Po
vložení vyhledávaného termínu se kód pole připojuje hned za termín (bez
mezery):
=> S PARMENTER C?/AU (CR)
omezí vyhledávání v CA FILE na pole autor
=> S ISATIN/CN (CR)
omezi vyhledání v Registry File pouze na pole chemické jmeno
Co se stane, když nepoužijete žádný kód pole ve vyhledávácím příkazu? Program
předpokládá, že chcete vyhledávat v BASIC INDEX (základním indexu).
Pole která jsou zahrnuta v základním indexu se liší podle prohledávané
databáze.
Pro databázi CA základní index zahrnuje:
-
CAS registrační čísla (Registry Numbers)
-
jednotlivá slova z názvů, abstraktů a indexů
Pro databázi Registry, základní index zahrnuje:
-
fragmenty chemického názvu
-
fragmenty vzorce molekuly
-
kódy kolektivníhe index (Collective Index)
Viz "Jak
zúžit počet vyhledaných záznamů při vyhledávání v databázi CA" pro
příklady použití polí "Language (jazyk)", "Document Type (typ dokumentu)"
a "Publication Year (rok publikace)" .
VIII. Přístupový software a WWW Access
Naučení příkazového jazyka dodavatelů STN International, DIALOG, a jiných
může být pro někoho významnou překážkou pro online vyhledávání. Existují
proto programy, které mohou pomoci začínajícím vyhledávačům informací.
Jeden takový přístupový (FRONT-END) program je STN
Express +$. Jiný volně přístupný Internet
Grateful Med pro databáze National Library of Medicine (NLM). Program
IMAGINATION
firmy Questel-Orbit software je jeden z nejnovějších přístupových programů.
Některé tyto programy jsou dostupné ve verzích jak pro počítače Macintosh
tak i pro PC. Produkt firmy STN je SciFinder,
který slibuje, že prohledávání některých databází STN bude relativně velice
snadné.
Nejnovější snahy hlavních dodavatelů databází získat online vyhledávače
byly směřovány na Internet. Např. programy STN
EASY a KR ScienceBase
firmy Knight-Ridder oba umožňují přímý přístup k databázím pomocí relativně
jednoduchého grafického uživatelského prostředí.
IX. Jiné zdroje.
Zde je link
na relevantní Internetové zdroje na toto téma.
X. Bibliografie.
Williams, J. "SciFinder: Scientists Online at Their Desktops," Online
User Jan/Feb 1996, 31-35.
Quick
Reference Guide to Search Engine Syntax.