Velryba s pořádnou tlamou

Čínská AI “DeepSeek-R1”, vypuštěná v pondělí, má ve znaku velrybu, ale v loužičce umělých inteligencí zapůsobila spíš jako kraken. Jedním z bezprostředních důsledků byl výrazný pád akcií firmy Nvidia, výrobce specializovaných grafických čipů.

I když následující graf není zcela vypovídající (osa Y nezačíná nulou, což je ale u burzovních grafů dost běžné), stejně je vidět, že “zub” na konci křivky je docela výrazný.

Samozřejmě, jako vždy, když nastanou takové jevy, se lidé začnou ptát: “je to bublina, která praská?” Určitý typ skeptického komentátora k tomu dodá “já to říkal!”

Myslím si, že to není bublina v pravém slova smyslu (kolaps ceny něčeho, co v sobě nenese moc velkou vnitřní hodnotu, jako třeba tulipánové cibulky v Holandsku 17. století – viz Zapomenuté příběhy a jejich hned první kapitola “Květiny nad zlato”). Spíše jde o prudkou korekci danou technologickým skokem, který DeepSeek demonstroval.

Bavíte-li se s lidmi o AI coby bublině, většinou dochází ke zmatení pojmů, které by bylo záhodno srovnat. Musíme oddělit dva různé aspekty, které jsou sice dole propojeny jako lístky spanilé růže, ale každý z nich “roste” jiným směrem.

Aspekt číslo 1 je praktický: je ta technologie vůbec k něčemu? Doteď potkáte na internetu jedince, kteří tvrdí, že nikoliv, někdy i velice pohrdavě.

Je pravda, že současné umělé inteligence mají tendenci halucinovat – když jsem se před pár dny zeptal bezplatné verze ChatGPT 4 na své vlastní dílo, přisoudila mi tři knihy, které jsem vůbec nenapsal, a nezmínila se o žádné z těch existujících.

Nicméně úplně “mimo” taky není – když jsem to četl, docela jsem se poznal. Toto jsou skutečně témata, která mě zajímají, a o kterých sice nepíšu knihy, ale článků na ně jsem napsal dost. Je to pořád ještě halucinace, ale o dost přesnější, než kdyby ten systém tvrdil, že jsem nadšený amatérský hasič a skládám lidové operety z rybářského prostředí.

Navíc toto už je v podstatě překonaná technologie, stará skoro dva roky, a novější modely AI jsou spolehlivější. Toto je pole, které se rychle vyvíjí, a za rok nebo za dva bude vypadat úplně jinak. Zdaleka ne všechny AI jsou “kecálky” jako ChatGPT, čím dál častěji mají i “dedukční” (reasoning) režimy použitelné například pro řešení vědeckých problémů. Terence Tao, asi nejslavnější žijící matematik nedůchodového věku, charakterizoval své pokusy s loňskou AI jako komunikaci s “průměrným, ale ne zcela neschopným doktorandem“. (Viz také rozhovor s Taem v The Atlantic.) Právě Tao ale také řekl, že kvalita produktů se výrazně zlepšuje, a vstoupil do projektu, který má AI přizpůsobit pro použití v matematice.

Obecně je AI nepřekonatelná ve své schopnosti “přechroustat” gigantické množství vstupního materiálu a vyhmátnout z něj to, co chcete – přičemž tím materiálem může být text, obrázky, video, ale i genetická analýza nějakého tkáňového vzorku odebraného pacientovi nebo milion složitých organických molekul, ze kterých jedna nebo dvě můžou být nadějným lékem, ale je potřeba je v té hromadě hlušiny nejdřív identifikovat. Toto je požadavek, který z naší ekonomiky jen tak nezmizí, a tudíž nezmizí ani ta AI samotná, naopak se asi bude přirozeně šířit tam, kde se s větším množstvím dat běžně pracuje. Hlavním úkolem výzkumníků pak bude zlepšit její spolehlivost, aby to “vyhmátnutí” bylo co nejpřesnější.

Poznámka na závěr této sekce – dneska jsme “systémově netrpěliví” a zvykli jsme si na překotný vývoj všeho. Zajděte si prosím do kina na film “Saint-Exupéry“, který je mimochodem úžasný. Ten se odehrává v roce 1930, tedy 25 let po prvním úspěšném letu bratří Wrightů – ale ta letadla byla pořád ještě (krásné!) dřevěné bedny, dvojplošníky, jejichž vrtuli musel ručně roztáčet personál letiště a jež nedokázala na první dobrou přeletět Andy, protože byly moc vysoké. A ještě cca dalších 25 let mělo trvat, než do civilního letectví vstoupily proudové motory.

Potez-25, letoun, se kterým se Henri Guillaumet zřítil v Andách. Autor: Duch.seb , CC BY-SA 3.0

No, ve srovnání s tehdejším letectvím jde ten vývoj v dnešní AI velice, velice rychle.

Aspekt číslo 2 – ekonomika celé věci. Jinými slovy, není ta AI na svoje výsledky příliš drahá?

To je ten bod, ve kterém mají “bublináři” pravdu, respektive upozorňují na velmi reálný problém. Vynecháme-li několik výrazných výjimek, jako byl projekt Manhattan nebo mapování lidského genomu, většina nových technologií začíná jako relativně levné hračky nadšených amatérů a zdražuje teprve časem, jak komplexita celé věci roste. Ani ta krásná a zastaralá dřevěná letadla, na kterých vozil zámořskou poštu Saint-Exupéry, nebyla nějak zvlášť drahá.

I velice užitečné technologie můžou nicméně narazit na zeď v podobě špatných investic, což se stalo třeba internetu na jaře roku 2000. Tehdejší Dot-Com bublina praskla s pořádnou ranou, investice do celého sektoru poklesly skoro o 80 procent.

Velká internetová bublina nabíhající cca od půlky roku 1999 až do prasknutí na jaře 2000 je na tomto grafu perfektně vidět – zdroj

To neznamenalo, že internet sám o sobě je k ničemu – prostě jenom peníze na základě nedostatku zkušeností natekly do “nesprávných” podniků a investoři si převážně “nabili držku”. Nicméně některé firmy, které toto období přežily, třeba Amazon a Google, se časem staly největšími hráči na bojišti.

Dnešní ozvěna Dot-Com bubliny spočívá v tom, že Sam Altman (ředitel OpenAI) a jeho kolegové vesměs v souvislosti s tréninkem nových modelů hážou zcela fantastickými sumami. Loni v únoru tvrdil Altman, že kompletní adekvátní investice do AI, včetně továren na specializované čipy, by vyšla na 7 bilionů dolarů, což je asi třicet procent ročního HDP celých Spojených států amerických a něco pod polovinu ročního HDP Číny.

Nemám moc rád slovo “megalomanie”, protože u nás si jej adoptovali různí NIMBYové, jež jsou schopni za “megalomanský projekt” označit každý pětipatrový činžák v Hloubětíně, který se jim nelíbí. Ale toto byla od Altmana opravdu megalomanie skoro Ceauseskových rozměrů, protože nebylo nikterak jasné, zda si toto ještě začínající pole dokáže těch 7 bilionů vydělat zpět, a v jakém časovém horizontu.

AI zatím neumí nahradit vysoce kvalifikované zaměstnance, maximálně je trochu doplňuje. A pokud by zvýšila produktivitu v některých odvětvích řekněme o 2 – 3 procenta, tak to sice není k zahození, ale za sedm bilionů dolarů je to příliš drahé.

Parlamentní palác, nejslavnější Ceauseskova budova v Bukurešti. Má 365,000 m² podlahové plochy a dodnes je ze dvou třetin prázdný, protože tolik úředníků prostě chudé Rumunsko nemá. Vytápění a elektřina pro budovu vyjdou ročně na 6 milionů dolarů. Autor Jorge Franganillo, CC BY 2.0

Právě zde zamíchal DeepSeek docela výrazně kartami, protože Číňané, kteří jej vypustili, tvrdí, že jeho trénink byl výrazně levnější – asi 30x levnější než srovnatelné americké modely – a nebyly k němu potřeba ty aktuálně nejmodernější čipy, které se do Číny oficiálně nesmějí dovážet. Hlavní rozdíl měl spočívat v lepším algoritmu, kterým se model vytvářel. Jmenuje se Multi-Head Latent Attention a je otevřený – jinými slovy, další firmy se mohou také pokusit o jeho implementaci a případně ji i vylepšit.

Algoritmus se dá ověřit (hrubý popis zde, ale je to opravdu jen pro matfyzáky). Informace o údajné nízké ceně tréninku a o hardwaru, který byl použit, už tolik ne. Tam může hrát roli různé kreativní účetnictví, jakož třeba i neochota “prásknout” nějakého dodavatele, který do Číny to embargované zboží možná umí, možná neumí dostat. Také úplně přesně nevíme, jaká data v Číně k tréninku použili. Třeba už byla nějak předzpracovaná.

Nicméně i tak stačilo objevení DeepSeeku na scéně způsobit nějaké efekty:

První efekt – vznikla pochybnost o tom, jestli trénování modelů opravdu musí být tak drahé, a jestli se nevyplatí více investovat do lidí – konkrétně těch teoretiků, kteří mohou případně přijít s nějakým algoritmickým vylepšením. Obecně v té “těžké” informatice platí, že lepší algoritmus vždycky triumfuje nad pouhým nalitím peněz do dražšího “železa” – přirovnal bych to k tomu, že i ten nejhorší a nejšpinavější bagr je pořád ještě výrazně výkonnější než kopáč-člověk s titanovou lopatou posázenou zlatem a diamanty. Osobně bych čekal, že Altman se teď svého bilionového impéria nedočká.

(Mimochodem – toto je věc, ve které má Čína aspoň papírově navrch. Ročně teď údajně produkuje více inženýrů než celý zbytek světa dohromady, a čínská jména jsou v AI výzkumu dost běžná.)

Druhý efekt – Spojené státy si přestaly být jisté, zda v tom závodě o AI mají navrch. Situace se přirovnává k “okamžiku Sputniku“, kdy Sovětský svaz vypustil první družici na oběžnou dráhu a její pípání vedlo na západní straně k panice ze zaostávání. Není to úplně ta samá situace, ale “rýmuje se”, a pokud se vývoj bude opakovat, dá se na americké straně očekávat podobná snaha “dohnat a předehnat”. Ostatně ten ohlášený projekt zvaný Stargate by do toho zapadal.

Třetí efekt – některé menší státy se mohou aspoň okrajově dostat “do hry velmocí”, protože mají tradičně výbornou úroveň matematiky a informatiky. Napadá mě třeba Izrael nebo Singapur, ale i Vietnam, v rámci EU možnááá Nizozemsko. Nečekal bych v tomto případě vznik nějakých masivních IT gigantů – na to opravdu mimo Křemíkové údolí nejsou moc podmínky – ale zajímavá věda by tam vzniknout mohla. Dostupnost “silného železa” byla až dosud citelným problémem, hlavně pro menší pracoviště. Ukázal-li někdo, že to jde i levněji, pokusí se o totéž mnoho dalších lidí.

A co DeepSeek samotný? Celkem předvídatelně nechce rozebírat různé průserové momenty z čínské minulosti a současnosti (“Sorry, that’s beyond my current scope.”), aneb ideologické bariéry se nezapřou. (Můžeme si při té příležitosti vzpomenout na snahu Google AI kreslit “černé nacisty“.)

Co se kvality týče, ta se u AI nástrojů notoricky těžko měří. Jakákoliv kritéria, která vymyslíte, zapracují autoři do příštích vydání svého modelu, takže jejich použitelnost je jen velmi dočasná. (Existují týmy, které se snaží udržet svoje testy v tajnosti. Ale u síťové služby je ta jejich “tajnost” dost nejistá.)

Tím pádem nezbývá, než se ptát na praktické zkušenosti. Podle zkušeností programátorů z Hacker News je DeepSeek celkem kompetentní pomocník při programování. Užitečné je i jeho okénko “Chain of Thought”, ve kterém se ukazuje, jakým způsobem stroj o dané úloze uvažuje. (Poznámka – typická stížnost je, že zatím nikdo neumožňuje do takového okénka zapisovat a nasměrovat tak třeba ten stroj nějakým jiným směrem, pryč od neproduktivních úvah.) Úplná revoluce by to ale být neměla, typicky jej uživatelé přirovnávají k existujícímu modelu Claude 3.5 Sonnet. Snad s výjimkou o něco lepších matematických schopností.

Ale samozřejmě nevíme, co si tam na druhé straně zeměkoule schovávají sami pro sebe.

Diskusní fórum ke článku najdete zde.

Hudební epilog