Od soutěže japonského ministerstva až po otázky spolupráce akademických pracovišť s komerční sférou – aneb rozhovor s výzkumníky z ÚVAFM OU
Dvojice výzkumníků Petr Hurtík a Marek Vajgl z ÚVAFM OU zaznamenala před nedávnem výjimečný úspěch. Zabodovala v mezinárodní soutěži vyhlášené japonským ministerstvem. Nejen výsledcích, které vedly k tomuto ocenění, ale i o otázkách impaktu výzkumu a spolupráci s komerční sférou v oblasti AI jsme si povídali s oběma hlavními protagonisty.
Q1: Řekne-li se v českém kontextu zpracování obrazu (image processing) či počítačové vidění (computer vision), není vaše pracoviště (ÚVAFM OU) většinou tím prvním, které si zasvěcení lidé vybaví – a to přestože dosahujete v těchto oblastech vynikajících výsledků. Jak vlastně k tomu došlo, že se u Vás tato témata řeší?
PH: Samotný Ústav má silnou pozici a mnoho úspěchů v oblasti fuzzy modelování. S tím, jak se v průběhu času zvyšoval počet pracovníků, mohl být vytvořen tým kolem prof. Perfiljevy, který se zpracování obrazu začal věnovat. Samozřejmě stálo mnoho úsilí a času než jsme se vyprofilovali. Nyní začínáme sklízet úspěchy rozhodnutí udělaného před lety.
MV: Problematice významně pomohla i spolupráce s komerční sférou, kdy jsme řešili několik zakázek zaměřených na zpracování obrazu. Od té doby jsme se této oblasti začali věnovat a už jsme ji neopustili. Příjemným bonusem zpracování obrazu je to, že jsou výsledky vizualizovatelné, takže člověk hned vidí, co vlastně vytvořil a jak dobře to funguje.
Q2: Přiblížíte nám, jakých největších úspěchů jste na tomto poli v poslední době dosáhli?
PH: Pro vědeckou komunitu to budou jistě publikace v top časopisech jako Fuzzy Sets and Systems, Pattern Recognition či IEEE Transactions on Fuzzy Systems. Tým pak má i ocenění z různých soutěží typu Eusflat Edge Detection, IEEE CIS mobile application, Kornia Hackaton či několik pěkných umístění na soutěžním webu Signate. Právě poslední čerstvý výsledek – umístění na druhém místě v úloze detekce a sledování objektů ve videu pořízeném z jedoucího automobilu – nás zdravě motivuje k další práci. Porovnali jsme se tam ve světové konkurencí pracujících s nesrovnatelně lepším vybavením. Ve vědě svou velikostí jistě nemůžeme konkurovat dalším republikovým či dokonce světovým institucím co se týče objemu výzkumu, ale to nás nelimituje v oblasti kvality. Kvalitní výzkum je především otázka nadšení a minoritně pak financí či vybavení. Kdo chce dojít k cíli, cestu si najde. Kdo nechce, najde si výmluvu.
MV: Jen bych lehce upravil, že kvalitní výzkum chce i nějaké to vybavení, ale důležité je tam mít i to nadšení pro jeho získání. Nám se podařilo jít po krůčcích nahoru a nyní máme nějaký standard, na kterém můžeme stavět. To, že nemáme nejvýkonnější dostupné vybavení současné doby nás navíc motivuje dělat řešení, která jsou realizovatelná i v běžném prostředí, a to je dle mého také důležité a zajímavé. To, že na naše řešení nepotřebujete počítač za statisíce, je dle mého názoru také pěkný úspěch.
Q3: V čem je vaše poslední soutěžní řešení unikátní?
PH: Za nezvyklé považujeme náš celkový přístup. Na soutěžních webech, jako je Kaggle či Signate, se pohybují týmy fungující jako profesionální sběrači odměn. Udělají průzkum aktuálních řešení v dané oblasti, adaptují několik nejlepších přístupů a vytvoří jejich agregaci. Cílem je získat finanční prémii za co nejmenší práci. My máme výhodu v tom, že provádíme vlastní výzkum a jsme schopni použít naše techniky a ty přizpůsobit. V tom se od většiny účastníků odlišujeme.
MV: Naším cílem bylo propagovat vlastní výzkum. V nedávné době náš tým připravil vlastní deep-learning metodu Poly-YOLO, která umí detekovat a identifikovat objekty v obraze. Chtěli jsme zjistit, nakolik je tato metoda použitelná na praktických problémech, a soutěž nám umožnila porovnat se s jinými existujícími řešeními v reálné úloze. Ukázalo se, že Poly-YOLO s drobnými úpravami pro danou doménu, je metoda konkurenceschopná.
Q4: V čem tedy spočívá unikátnost Poly-YOLA?
PH: Abychom věc zjednodušili a přiblížili v krátkosti i čtenářům mimo obor, můžeme říci, že jsme vyšli z již existujícího detektoru objektů (YOLOv3), jenž je vzhledem k poměru rychlosti a přesnosti jeden z nejlepších na světě. YOLO ale umí detekovat pouze obdélníkovou obálku objektů. My jej upravili tak, aby byl schopen detekovat i polygonový obrys, tedy mnohem přesněji popsat objekt. A to bez velkého dopadu na rychlost. Unikátnost je v tom, že polygonový obrys se síť učí nezávisle na absolutní velikosti objektu, což snižuje nároky na počet dat. Dále jsme původní YOLO rozebrali a našli principiální chyby. Ty jsme odstranili, což vedlo k podstatnému nárůstu přesnosti a opět bez vlivu na rychlost. Pokud tedy někdo chce realizovat přesnou detekci tzv. “instance segmentation” v reálném čase, Poly-YOLO je ideální metoda.
Q5: Lze si snadno představit, že takovéto výsledky povedou k několika či spíše mnoha článkům ve slušně impaktovaných časopisech. Vy ale zjevně nejdete touto cestou. Proč?
PH: Jako univerzitní vědci máme sloužit vědecké komunitě a veřejnosti. Publikace uspokojí zejména vědeckou komunitu v tradičních oborech, ale v umělé inteligenci nikoliv dostatečně. Navíc pro mě je významná i odborná komunita mimo akademickou sféru – inženýři, vývojáři, programátoři. Obě části komunity mají přístup k našemu repozitáři (tj. k celému našemu řešení) a mohou naše řešení volně používat. Nasbírat citace u článku je příjemné, ale když se vám ozývají lidé z celého světa a vy vidíte, jak vaše řešení dále uplatňují či rozvíjejí, to je ten skutečný merit aplikované informatiky. Jsem rád, že takovou otevřenost berou poslední dobou v potaz i dotační projekty, které podmiňují dotaci právě tím, že dílo bude přístupné pod otevřenou licencí. U našeho posledního přístupu, Poly-YOLA jsme po uveřejnění dostali několik zpětných ohlasů, jak metodu dále vylepšit, dostali jsme nabídku bezplatného výpočetního výkonu, lidé začali přepisovat naše řešení do dalších frameworků, na nespočtu blogů se objevil popis naší metody, článek byl přeložen do mandarínštiny a objevily se návodná YouTube videa o našem přístupu. Toto vede k obrovské synergii a posunu vpřed. Proto se mi jeví vhodnější obětovat čas vynaložený na psaní další publikace a místo toho se více zabývat komunitou a veřejností. Prostě reálný impakt, nikoliv jen ten vypočítaný u konkrétního časopisu.
MV: Navíc v této oblasti je problém s časovou prodlevou před vydáním publikace. Samotný průchod recenzním řízením je záležitost roku. Vývoj v této oblasti jde vpřed neuvěřitelně rychle, vymyšlená řešení jsou vylepšena nebo překonána velmi rychle a proto zaměření se na publikace není nejlepší způsob, jak propagovat svůj výstup. Sami máme zkušenost, jak rychle se vyvíjí původní síť YOLO, na které náš přístup částečně staví. Vždyť než jsme dokončili náš článek k publikaci, který Poly-YOLO popisuje, tak byly uveřejněny další dvě verze (myšleno na webových serverech, ne v publikovaných článcích), konkrétně čtvrtá a pátá verze. I proto provádíme zveřejnění našeho přístupu nejen ve formě článku, ale také ve formě blogů na webových serverech, nebo pomocí demonstračních videí na YouTube.
Q6: Jak na Vaše výstupy reaguje « praxe », resp. komerční sféra?
PH: S praxí jsme dlouhodobě v kontaktu a to nám pomáhá formovat náš přístup. Firmu nezajímá, že je vaše teoretické řešení o nepatrný zlomek lepší než vědecká konkurence. Firmu ani nezajímá algoritmus či software, firma chce hotový produkt, který se bude snadno integrovat, nikdy neselže a bude stát zlomek toho, co by je stál vývoj vlastními silami. Je to téměř opak toho, co většinou nabízí tradiční univerzitní prostředí. Toto se značně zlepšilo s diskuzí o Průmyslu 4.0. Obecně nyní po soutěži vidíme nadšení a registrujeme už první nabídku o spolupráci ze soukromé sféry navázanou na soutěž.
MV: Komerční sféra je náročným zadavatelem. Má cíle, často velmi vysoké cíle zaměřené na praktické použití, a to vás nutí o problémech uvažovat jiným způsobem. Už se moc nezaměřujeme ve volném výzkumu na pohled “jak by šla určitá metoda vylepšit”, ale “jak metodu vylepšit tak, aby řešila určitý praktický problém”. To je sice často náročnější, protože “musíte” najít řešení, nicméně zajímavější, protože je moc příjemné na konci vidět výsledný produkt v praxi, jak funguje a používá se. Je ale pravda, že požadavky komerčních subjektů často nejsou realizovatelné.
V komerční sféře je navíc minimum subjektů, které se nějak zásadněji orientují na publikované články nebo obecné konference, ale mnohem častěji právě na příspěvky nalezené na serverech typu Medium, Twitter, nebo demonstrace např. pomocí videa. Teprve když je takový podklad zaujme, osloví Vás.
Q7: Můžete nastínit typická úskalí spolupráce s komerční sférou?
PH: Těch je celá řada, máme zkušenosti, že většina spoluprácí končí už v první fázi studie proveditelnosti. Pro upřesnění, spolupráce nekončí nějakým rozkolem, jen na ní není navázáno realizací zakázky. Vždy si necháme firmou vysvětlit problematiku, navštívíme provoz a podíváme se na problém detailněji. Následně provedeme úvodní výzkum a realizaci řešení. Cílem není po třech dnech prohlásit, že vše funguje, ale že existuje cesta, jejíž obrysy z úvodního výzkumu vyplynuly. Právě v této fázi identifikujeme hlavní překážky, u kterých ověřujeme, jestli je možné je překonat. Toto minimalizuje rizika pro nás i pro partnera. Nejčastější překážkou, na kterou narazíme, jsou data potřebná pro tvorbu našeho řešení. Stává se, že není možné nám je legálně předat kvůli firemní politice nebo je jich absolutně nedostatečné množství. Nelze realizovat obecná řešení fungujících za všech podmínek, pokud data obsahují pouze omezené množství vzorků. V neposlední řadě se setkáváme s tím, že přesnost našich algoritmů pro dané podmínky je vyšší, než přesnost hodnocení vytvořeného člověkem. Toto v kombinaci s vysokou nastavenou požadovanou přesností vytváří nerealizovatelnou zakázku. Pro ilustraci předpokládejme komplexnější klasifikační úlohu, kde partner požaduje chybovost 1000ppm tedy správnost 99,9%. Dle naší zkušenosti je ale lidská přesnost pro komplexnější úlohy, vyžadující subjektivní posouzení, kolem 98-99%. Ta jedno až dvě procenta jsou jednoduše chyba člověka, kterou zanesl do datasetu, z něhož má naše řešení vycházet. A současně je to chybovost člověka, jenž má následně posuzovat, zda jsme se s chybou vešli do 0,1%. To je neřešitelná situace. I pokud chyby v datasetu odfiltrujeme a algoritmus bude fungovat správně, lze oprávněně očekávat, že nám nějakou tu chybu k výsledku připočítá během evaluace lidský faktor. A dejme si to do kontextu s datasetem menším než 1000 vzorků. Pak je požadavek na přesnost 1000ppm roven nula chybám. Z výše uvedených důvodů pak není možné nulovou chybovost garantovat už z principu. Jedinou obranou je shoda na posouzení vícero lidmi. To ale vyžaduje násobně větší čas, což znamená za stejný objem času menší dataset. Pokud to shrneme, největším úskalím spolupráce tak není složitost úkolu vyvinout co nejkvalitnější algoritmus, ale nalézt způsob, jak co nejefektivněji získávat data, přistupovat k nim a vylepšit komunikaci s firmami, aby si obě strany co nejlépe rozuměly.
Q8: Myslíte si, že v ČR jsou předpoklady dělat kvalitní až přelomový výzkum v informatice stylem « GitHub + arXiv »?
PH: Nejde o předpoklad, v jistých oblastech je to podmínkou. Bez kompletních zdrojových kódů v repozitáři a přístupu k preprintu článku to ani nejde. K tomu je třeba dodat další PR záležitosti typu demonstrační videa na YouTube, oznámení na Twitteru či propagace řešení právě na soutěžích. Nejsme v postavení výzkumného týmu Facebooku a podobných a tak musí být naše řešení o to kvalitnější a lépe propagované, aby to komunita zaznamenala. Na druhou stranu z toho plyne, že produkovat kvalitní výzkum může i člověk, který není z univerzitního prostředí či naprosto z jiné branže. Otevřený přístup tomuto pomáhá.
MV: Informatika je široký pojem, ale v praktických oblastech rozhodně ano. Servery typu arXiv vám dávají možnost rychlého sdílení výsledků, servery typu GitHub zase možnost rychlého přístupu k implementaci řešení, což vám dává možnost jednak rychlé reprodukce výsledků, ale také možnost ověření vhodnosti daného přístupu pro vaši úlohu. Proto tímto způsobem nic neschováte, každý si to může zkusit a hned vidí, jestli navržený přístup funguje.
Děkujeme za rozhovor!
Za ResearchJobs.cz se ptal
Martin Víta