CHEMINFO Title Bar

Obecné informace o vyhledávání pomocí počítače

CI: obsah přednášky
Poslední změna: 7.3.2000 

I. Úvod

Výrobci databází a dodavatelé databází umožňují prohledávat soubory, které se nacházejí mimo naši geografickou oblast pomocí technik online vyhledávacích technik databází. Průmysl online databází se nyní nachází ve svém třetím desetiletí existence a během této doby bylo vyvinuto mnoho důmyslných vyhledávacích technik

Každý dodavatel nabízí řadu databází, některé z nich jsou specifické pro disciplinu (chemie, fyzika atd.) a jiné se zabývají problémy orientovanými na nějaké globální téma jako např. energie nebo životní prostředí, takže zahrnují mnoho disciplin. Pokud jste připojeni k systému dodavatele databáze, je možné provádět vyhledávání v několika databázích současně (multi-file searching).
 

II. Cena a přínosy online vyhledávání

Cena komerčního online vyhledávání obvykle není pevná, ale závisí na několika faktorech, včetně telekomunikačních poplatků, době připojení k dodavatelovu počítači, licenční poplatky za informaci získanou z databáze (známé jako HIT CHARGES), a také poplatky za počet vyhledávácích termínů ve vyhledávací strategii (viz př.).
 

Přínosy plynoucí z používání online databází zahrnují:

STN International je v současnosti jediný online dodavatel, který zpřistupňuje abstrakta z Chemical Abstracts, tj. souboru  CA. Podobně STN a Questel jsou jediní dodavatelé, kteří poskytují vyhledávání pomocí struktur v kompletním souboru sloučenin "CAS Registry File". Podmnožina kompletní databáze CA je dostupná v "CA Student Edition"  na vyhledávacím systému OCLC.

III. Logické vyhledávácí operátory (Boolean Search Operators)

Online vyhledávací systémy nabízejí možnost použít logické vyhledávací operátory, které ukazují logické vztahy mezi různými koncepty. Viz "Operators for Relating Search Terms" pro příklady logických operátorů používaných na STN. Nejběžnější logické operátory jsou: Hlavní rozdíl mezi logickým operátorem OR a slovem or (anglicky "nebo") je, že hovorovým "nebo" se obvykle myslí pouze jedna z uvedených možností, kdežto logické OR umožňuje jak jen jednu z možností tak i obě současně. Podobně jako v hovorovém jazyce spojka a (AND - anglicky "a") tak i logický operátor AND se používá ke spojení podobných i rozdílných věcí dohromady. V příkladech uvedených výše si můžete představit, že (dort AND zmrzlina) musí být v jedné míse (dokumentu) aby vyhovovaly vyhledávacím požadavkům, naproti tomu (koláč OR dort OR cukroví) znamená, že každá věc může bých v rozdílných miskách (documentech).

Co by se stalo v NOT příkladech, kdyby čokoládový dort byl jediný dostupný dort? V prvním případě bychom byli bez dezertu. V druhém případě bychom dostali alespoň koláč nebo cukroví (pokud by samozřejmě nebyly čokoládové). NOT operátor se musí v online vyhledávání používat opatrně, protože může vyloučit některé dokumenty, ve kterých je sice vylučované slovo, ale mohou tam být i slova, která nás zajímají.

Existuje ještě několik specifických variací  operátoru AND, které mohou definovat prostorové vztahy vyhledávacích slov. Nazývají se POSIČNÍ (POSITIONAL) nebo PROXIMITNÍ (PROXIMITY)  OPERÁTORY. Jejichž formát se může lišit u různých systémů. U STN to jsou operátory:
 

STN předpokládá, že několikaslovné fráze bodou vyhledávány pomocí (W) operátoru, pokud nejsou uvedeny žádné jiné operátory.
 
 

IV. Použití rozšiřování termínů (TRUNCATION) (maskování znaků) při vyhledávání

Rozšiřování termínů je vyhledávací technika, která umožňuje vyhledat více než jeden tvar slova pomocí jednoho příkazu. Rozšíření se provede tak, že se k základu termínu (slova) připojí znak se specielním významem (různé znaky jsou používány různými systémy). Rozšiřování termínů lze provádět na pravém či levém konci termínu (slova), nebo uprostřed termínu. V jednom termínu jsou tak zahrnuty různé verianty slova, lišící se např. koncovkou. Dokonalejší systémy umožňují definovat počet rozšíření na právě jeden znak, určitý počet znaků nebo neomezený počet znaků.

Viz:

pro příklady rozšiřování termínů u STN.

 STN nyní umožňuje všechny typy rozšiřování v "CA File Basic Index". Limit počtu termínů, které mohou být zahrnuty do vyhledaných výsledků pomocí rozšíření je dan počtem 30000 zakladů slova (tj. pouze prvních 30000 rozdílných termínů, jejichž základ slova odpovídá zadání se bere v úvahu při vyhledávání). Pro rozšiřování zleva musí mít vyhledávácí termín alespoň čtyři znaky.

V. Zalogování a odlogování (připojení a odpojení, logging on and logging off)

Jeden způsob jak získat přístup k systému STN International je pomocí telefonní linky a modemu.
Jiný způsob je přístup k STN pomocí programu telnet přes Internet, za použití adresy STNC.CAS.ORG nebo TN.FIZ-KARLSRUHE.DE.

Všechny komerční systémy které požadují poplatky za online vyhledávání v jejich databázích, vyžadují identifikační jméno (loginid) a heslo (password).
Pro STN akademický program pomocí telnet by postup pro zalogování byl následující. Údaje zadané uživatelem jsou uvedeny tučně. "(CR)" znamená stiskněte klávesu "Enter":

 telnet stnc.cas.org (CR)
(CR)
Welcome to STN International! Enter x: i (CR) (1)
LOGINID: dummyid (CR)
PASSWORD: ######### (Vložte heslo a CR) (2)
TERMINAL (ENTER 1, 2, 3, OR ?): 3 (CR) (3)
* * * * * * * * * Welcome to STN International * * * * * * * * * *

 [Zde se objeví nové zprávy. Jste připojeni, běží čas, za který se platí]

[vyběr databáze, kterou chcete prohledávat:]
 => file lreg (CR)

 [Zde se vyhledává, tj. zadáte vyhledávácí příkazy, prohlížíte výsledky vyhledávání,....]
...
[Skončili jste vyhledávání, odpojíte se od systému:]
 => log y (CR)
[Teď již jste odpojeni]


Pozn.:

 (1) "i" znamená, že vstupujeme do omezeného účtu Akademického Programu. Uživatelé s plným přístupem vkládají v tomto místě "x".

 (2) LOGINID se objeví na obrazovce, jak ho píšete, ale při zadávání hesla se objevují pouze znaky #########.

 (3) Po připojení lze vybrat typ terminálu:
 
 

Jakmile jste připojeni k systému STN, prompt (tj. znaky, které se objevují na začátku řádky v okamžiku, kdy systém očekává zadání příkazů od uživatele) je =>
 
 

VI. Základní příkazy STN

STN Messenger vyhledávácí program předpokládá, že jste začínající vyhledávač, pokud používáte celá slova jako příkazy. Některé příkazy mají jednopísmenové ekvivalenty, které, když je používáte, signalizují programu Messenger, že nechcete být programem dotazováni na všechny informace, které systém potřebuje k provedení vyhledávání. V tom případě nastaví systém DEFAULTNÍ (předvolené) parametetry.

Základních pět příkazů STN, s jejich jednopísmenovými zkratkami (pokud je mají) je:

"Základní STN Příkazy" dá podrobější informace.
 
 

VII. Databáze (files) "CA" a "Registry" na STN

V databázích (files) dostupných v CAS ONLINE Akademickém progaramu jsou učící databáze, které odpovídají:

CA File, bibliografická databáze s více než 12,000,000 záznamy od January 1, 1967 do dneška. Obsahuje plné indexování a abstrahování původních dokumentů. Příklady lze nalézt na  LCA database summary sheet. (kopie zde)

 Registry File, databáze obsahující informace o více než 14,000,000 sloučeninách, včetně CAS registračního čísla (Registry Number), CAS indexového jména (CAS Index Name), jiných chemických jmen, vzorce. CAS REGISTRY NUMBER (registrační číslo CAS) je unikátní číslo přiřazené každé chemické sloučenině v Registry File. Např. pro isatin to je 91-56-5. (Příklady vyhledávání v Registry File a nalezené záznamy viz LREG database summary sheet., kopie zde)

"Database summary sheets" mají příklady záznamů v odpovídajících databázích. Omezení vyhledávání na specifické části záznamu (pole) se provede použitím dvoupísmenového kódu, kterému přechází lomítko. Po vložení vyhledávaného termínu se kód pole připojuje hned za termín (bez mezery):

 => S PARMENTER C?/AU (CR)

=> S ISATIN/CN (CR) Co se stane, když nepoužijete žádný kód pole ve vyhledávácím příkazu? Program předpokládá, že chcete vyhledávat v BASIC INDEX (základním indexu). Pole která jsou zahrnuta v základním indexu se liší podle prohledávané databáze.

Pro databázi CA základní index zahrnuje:

Pro databázi Registry, základní index zahrnuje: Viz "Jak zúžit počet vyhledaných záznamů při vyhledávání v databázi CA" pro příklady použití polí "Language (jazyk)", "Document Type (typ dokumentu)" a "Publication Year (rok publikace)" .
 
 

VIII. Přístupový software a WWW Access

Naučení příkazového jazyka dodavatelů STN International, DIALOG, a jiných může být pro někoho významnou překážkou pro online vyhledávání. Existují proto programy, které mohou pomoci začínajícím vyhledávačům informací. Jeden takový přístupový (FRONT-END) program  je STN Express +$. Jiný volně přístupný Internet Grateful Med pro databáze National Library of Medicine (NLM). Program  IMAGINATION firmy Questel-Orbit software je jeden z nejnovějších přístupových programů. Některé tyto programy jsou dostupné ve verzích jak pro počítače Macintosh tak i pro PC. Produkt firmy STN je SciFinder, který slibuje, že prohledávání některých databází STN bude relativně velice snadné.

Nejnovější snahy hlavních dodavatelů databází získat online vyhledávače byly směřovány na Internet. Např. programy STN EASYKR ScienceBase firmy Knight-Ridder oba umožňují přímý přístup k databázím pomocí relativně jednoduchého grafického uživatelského prostředí.

IX. Jiné zdroje.

Zde je  link na relevantní Internetové zdroje na toto téma.

X. Bibliografie.

Williams, J. "SciFinder: Scientists Online at Their Desktops," Online User Jan/Feb 1996, 31-35.
Quick Reference Guide to Search Engine Syntax.