Scinet.cz » Věda

Silnější vyhledávání slov pomocí nové matematické techniky

10.4. 2009, Oldřich Klimánek

Síla a přesnost internetových vyhledávačů by mohla vzrůst díky aplikaci určitých matematických technik používaných například při zkoumání neuspořádanosti v kvantových systémech. Příslušné matematické postupy jsou totiž s to podchytit důležité struktury ve velkých souborech dat — tedy i na webových stránkách a v textových dokumentech.

S odvoláním na článek z Physical Review o tom informuje časopis New Scientist.

Současné vyhledávače při analýze textu za jedno z kritérií důležitosti slov považují  jejich četnost. Ta je srovnávána s četností daných slov v běžných textech, a jestliže se nějaké slovo v dokumentu vyskytuje častěji, než činí průměr, vyhledávacím systémem je označeno za důležité.

Určování důležitosti klíčových slov by ale měla zásadně vylepšit nová matematická technika: to, jestli je slovo důležité, nezávisí na jeho četnosti, ale spíše na tom, kde slovo v textu stojí.

Autorem tohoto nápadu je Pedro Carpena, španělský fyzik z Malazské univerzity. Matematické techniky z tzv. teorie náhodných matic už v minulosti použil k analyzování kvantových systémů. Podle něj je možné poznatky z této oblasti matematiky použít i k identifikaci důležitých slov v dokumentech. Svou práci publikoval v časopise Physical Review E.

Carpena tvrdí, že důležitá slova mají tendenci vyskytovat se blízko sebe, kdežto běžné obraty se v textech objevují nahodileji. Podle něj má toto tvrzení i svůj logický základ: když autoři rozvíjejí nějaké zásadní myšlenky, je pravděpodobnější, že relevantní slova použijí víckrát za sebou v jenom odstavci nebo na stejné stránce. Obyčejná slova jako „a“ nebo „ale“ jsou z principu rozložené napříč celým textem.

V testech, které Carpena provedl, jeho nová technika fungovala docela dobře. Teorii náhodných matic použil k hledání klíčových slov v knize Alberta Einsteina Relavitita: Speciální a obecná teorie; mezi deseti nejpodstatnějšími slovy se objevily výrazy jako „vesmír“, „pole“, „gravitační“ a „energie“.

Technika vedla k zjištění zajímavých klíčových slov i tehdy, když Carpena z textového dokumentu odstranil mezery a počítači zadal zjistit význačné kombinace písmen složených ze 2 až 35 znaků. Z toho usuzuje, že jeho metoda by šla aplikovat i na soubory s mnohem abstraktnějším obsahem dat. Se svými kolegy ji v současnosti testuje na lidském genomu.

Oren Etzioni, počítačový odborník z Washingtonské univerzity v Seatllu, si však není jistý, zda tato metoda vyhledávání je lepší než ty stávající. Upozorňuje na to, že Carpena své výsledky bude ještě muset srovnat s existujícími technikami.

„K důležitým objevům často dohází tehdy, když člověk techniky z jedné disciplíny vyzkouší v jiném oboru. Tohle je potenciílně velice slibné, ale Carpenův tým se pouští do míst, kde je už hodně přecpáno,“ myslí si Etzioni.

Oldřich Klimánek

Provozovatel serveru Scinet.cz.


VLOŽIT KOMENTÁŘ