Scinet.cz » Věda

Silnější vyhledávání slov pomocí nové matematické techniky

10.4. 2009, Oldřich Klimánek

Síla a přesnost internetových vyhledávačů by mohla vzrůst díky aplikaci určitých matematických technik používaných například při zkoumání neuspořádanosti v kvantových systémech. Příslušné matematické postupy jsou totiž s to podchytit důležité struktury ve velkých souborech dat — tedy i na webových stránkách a v textových dokumentech.

S odvoláním na článek z Physical Review o tom informuje časopis New Scientist.

Současné vyhledávače při analýze textu za jedno z kritérií důležitosti slov považují  jejich četnost. Ta je srovnávána s četností daných slov v běžných textech, a jestliže se nějaké slovo v dokumentu vyskytuje častěji, než činí průměr, vyhledávacím systémem je označeno za důležité.

Určování důležitosti klíčových slov by ale měla zásadně vylepšit nová matematická technika: to, jestli je slovo důležité, nezávisí na jeho četnosti, ale spíše na tom, kde slovo v textu stojí.

Autorem tohoto nápadu je Pedro Carpena, španělský fyzik z Malazské univerzity. Matematické techniky z tzv. teorie náhodných matic už v minulosti použil k analyzování kvantových systémů. Podle něj je možné poznatky z této oblasti matematiky použít i k identifikaci důležitých slov v dokumentech. Svou práci publikoval v časopise Physical Review E.

Carpena tvrdí, že důležitá slova mají tendenci vyskytovat se blízko sebe, kdežto běžné obraty se v textech objevují nahodileji. Podle něj má toto tvrzení i svůj logický základ: když autoři rozvíjejí nějaké zásadní myšlenky, je pravděpodobnější, že relevantní slova použijí víckrát za sebou v jenom odstavci nebo na stejné stránce. Obyčejná slova jako „a“ nebo „ale“ jsou z principu rozložené napříč celým textem.

V testech, které Carpena provedl, jeho nová technika fungovala docela dobře. Teorii náhodných matic použil k hledání klíčových slov v knize Alberta Einsteina Relavitita: Speciální a obecná teorie; mezi deseti nejpodstatnějšími slovy se objevily výrazy jako „vesmír“, „pole“, „gravitační“ a „energie“.

Technika vedla k zjištění zajímavých klíčových slov i tehdy, když Carpena z textového dokumentu odstranil mezery a počítači zadal zjistit význačné kombinace písmen složených ze 2 až 35 znaků. Z toho usuzuje, že jeho metoda by šla aplikovat i na soubory s mnohem abstraktnějším obsahem dat. Se svými kolegy ji v současnosti testuje na lidském genomu.

Oren Etzioni, počítačový odborník z Washingtonské univerzity v Seatllu, si však není jistý, zda tato metoda vyhledávání je lepší než ty stávající. Upozorňuje na to, že Carpena své výsledky bude ještě muset srovnat s existujícími technikami.

„K důležitým objevům často dohází tehdy, když člověk techniky z jedné disciplíny vyzkouší v jiném oboru. Tohle je potenciílně velice slibné, ale Carpenův tým se pouští do míst, kde je už hodně přecpáno,“ myslí si Etzioni.

Oldřich Klimánek

Vydavatel serveru Scinet.cz.


VLOŽIT KOMENTÁŘ

Vypršel časový limit. Prosím, obnovte kontrolní otázku pomocí tlačítka napravo.