Fara í efni
Pistlar

Að temja tæknina: Frá tilraunum til hagnýtra verkefna

GERVIGREIND - 3

Í fyrri pistlum höfum við fjallað um gervigreind, spunagreind og textafyrirmæli. Síðan síðasti pistill birtist hafa orðið stór tíðindi og hugsanlega nýtt módel komið á toppinn. Fyrirtækið Anthropic kynnti nýlega Claude 3.5 Sonnet, sem er nýjasta útgáfan af þeirra spunagreind. Það sem gerir þessa tilkynningu svo merkilega er að Claude 3.5 Sonnet sýnir betri frammistöðu en GPT-4 á mörgum sviðum en GPT-4 hefur lengi verið talið öflugasta gervigreindarmódelið á markaðnum.

Öfugt við tískufyrirbæri þar sem kannski er sagt að bleikar skyrtur hafi verið svo mikið 2018 er staðan í gervigreindinni þannig að hægt er að segja „GPT-4o var svo mikið vika 25, í viku 26 er það Claude!" Það verður áhugavert að sjá hvert svar OpenAI verður og annarra fyrirtækja sem eru að þróa sambærileg módel.

Samkeppnin um bestu módelin er gríðarlega hörð og þróunin hraðari en nokkurn óraði fyrir. Ég er nýlega kominn með áskrift að Claude 3.5 Sonnet og hlakka til að prófa mig áfram með kerfið. Fyrstu tilraunir mínar ganga vel og lofa góðu.

Þessi pistill verður í styttra lagi og helgast það fyrst og fremst af rannsóknarvinnu og undirbúningi m.a. fyrir þessa pistla. Mér þykir mikilvægt að prófa tæknina og síðan hafa verið stórar fréttir og tilkynningar sem ég hef verið að fara yfir, ómögulegt að pistlarnir verði úreltir samdægurs.

Tröllamúsin góða og „flytjendur“ lagsins í tónlistarmyndbandinu sem sjá má á youtube.

Tilraunir pistlahöfundar

Mig langar að hafa þessa pistla aðgengilega og áhugaverða. Að mínu mati kallar það á að ég prófi mig áfram og grúski í þessari tækni sem ég er að fjalla um. Þetta þýðir að ég þarf að fara út fyrir það sem ég notast helst við daglega og finna mér nýjar áskoranir til að glíma við.

Tónlist og myndbandagerð

Ég og dætur mínar unnum aðeins með Tröllamúsina sem varð til af uppspuna GPT-4 (hallucination). Úr varð tónlistarmyndband, alfarið unnið af gervigreind - lag, texti og myndband. Þetta setti ég síðan inn á YouTube. Markmiðið var ekki að slá í gegn, heldur kanna viðbrögð YouTube við efni sem er algjörlega búið til af gervigreind. Niðurstaðan var athyglisverð - YouTube leyfði myndbandinu að fara inn án vandkvæða.

Tröllamús (youtube.com)

Útgáfa plötu

Næsta skref var að nýta gervigreindina til að búa til heila plötu. Áskriftin mín að módelinu sem býr til tónlistina gerir mér kleift að búa til 500 lög á mánuði.

Ég notaði nafnið Orion Flux, sem ég man eftir að hafa notað einhvern tímann í tölvuleikjum, og gaf út plötuna „Stellar“ á Spotify. Ferlið var ótrúlega einfalt - gervigreindin samdi lögin og lítið mál var að koma þessari tónlist inn á stóra streymisveitu eins og Spotify.

Orion Flux - Stellar á Spotify

Eitt lag eða heil plata! Ekkert mál, gervigreindin var ekki lengi að því fyrir „tónlistarmanninn“ Orion Flux og herlegheitin voru komin á Spotify innan tíðar.

Tæknin er komin

Eins og ég sagði í innganginum fór vikan að mestu í rannsóknarvinnu og tilraunir. Ég á eftir að fjalla mun ítarlegra um ferlið en einnig þau fjölmörgu álitamál sem þarf að velta upp þessu tengdu. Módelin sem við erum að fá aðgang að verða sífellt öflugri, hraðari, nákvæmari og með fjölbreyttari notkunarmöguleika.

Verðugt verkefni: Kortasjá fyrir Hús dagsins, í samvinnu við Arnór Blika

Þó að tilraunirnar mínar með tónlist, myndir og myndbönd hafi verið skemmtilegar og áhugaverðar, fannst mér þær kannski ekki endilega endurspegla það sem ég hef mestan áhuga á núna. Ég vildi takast á við verkefni sem hefði meira hagnýtt gildi og myndi nýta gervigreindartæknina á áhugaverðan hátt.

Ég hafði samband við Arnór Blika, sem hefur skrifað fjölda pistla um áhugaverð hús á Akureyri og víðar. Ég spurði hann hvort ég mætti búa til gagnagrunn og kortasjá með þeim húsum sem hann hefur skrifað um. Ég hef lesið pistlana hans á Akureyri.net og þótt þeir áhugaverðir, en mér finnst þeir líka vera merkilegar heimildir sem vert er að varðveita og gera aðgengilegar.

Þetta verkefni reyndist vera mun umfangsmeira en ég gerði ráð fyrir í upphafi. Ég komst að því að Arnór hefur skrifað þessa pistla alveg frá 2009 og þeir eru rúmlega 700 talsins, ekki bara þeir um 60 sem birtust á Akureyri.net.

Það skal tekið fram að fyrir rúmu ári hafði ég ekkert forritað eða unnið að gagnagrunnum og var í raun algerlega ómeðvitaður um allt sem þurfti til að gera það sem þurfti til að búa þetta til. En með hjálp gervigreindar, þrautseigju og einstaklega þolinmóðrar eiginkonu tókst mér að ljúka verkefninu.

Ferlið í stuttu máli

  1. Bjó til kóða sem safnaði gögnum af vefsíðum með pistlum Arnórs.
  2. Vann úr textanum til að finna staðföng húsanna.
  3. Notaði Python til að finna hnit hvers húss.
  4. Setti upp kortasjá og fínstillti staðsetningar handvirkt.
  5. Bjó til gagnagrunn, bakenda og tengdi við kortasjána.

Hún er aðgengileg hér: Hús dagsins (magnussmari.github.io)

Vonandi finnum við framtíðarhýsingu fyrir kortasjána og ég vona að einhverjum þyki áhugavert að skoða þetta.

Samantekt

Það var í raun Claude 3.5 Sonnet sem rak smiðshöggið á kortasjána. Ég átti í basli með að fá GPT-4o til að leiðrétta kóðann til að fá bakendann til að virka rétt, en með því að nota GPT-3.5, GPT-4 og Claude 3.5 Sonnet í sameiningu tókst að koma þessu saman. Núna er einfalt að bæta við húsum og lagfæra ef það eru einhverjar villur.

Að mínu mati var þetta verðugt verkefni. Mér þykir gaman að hafa getað stutt við Arnór því hann hefur lagt mikinn metnað í pistlana, enda sést það vel á kortinu að hann hefur verið afar duglegur. Ég lærði líka heilmikið á ferlinu og öðlaðist þekkingu og færni til að búa til svona verkefni. Nú þegar ég hef gert þetta einu sinni verður mun auðveldara að endurtaka það. Hugsanlega mun ég taka mér örlítið lengri tíma í að greina umfang verkefnisins næst, en maður lifir og lærir.

Það sem í raun gerði þetta verkefni mögulegt er svokölluð fjölhæfni eða „multimodality“, sem þýðir að gervigreindarmódelin geta tekið við upplýsingum úr myndum, myndböndum og hljóði. Ég notaði þessa eiginleika óspart, bæði með því að afrita af skjánum hjá mér til að sýna hvernig möppur voru uppsettar og hvernig birtingin var. Ég krotaði jafnvel inn breytingar sem ég vildi í Paint og lét gervigreindina túlka þær, munurinn á því að þurfa að lýsa áskorunum eða vandamálum með texta eða geta sýnt það er risastórt stökk í áttina að því að geta átt í samskiptum við gervigreind nánast á sama formi og um manneskju væri að ræða.

Næsti pistill mun fjalla nánar um þessa fjölhæfni og þau margföldunaráhrif sem hún hefur á notkunarmöguleika gervigreindarmódelanna. Ég er enn að velta fyrir mér áhrifunum á tónlist, myndir og myndbönd, svo ég mun fjalla nánar um þau síðar. Þetta er viðfangsefni sem hefur ótal snertifleti sem þarf að rýna í og ég hlakka til að kafa dýpra í það í næsta pistli.

Ef þið finnið villur eða hafið ábendingar endilega hafið samband á magnus.smarason@gmail.com

Magnús Smári Smárason er lágkóða gagnagrúskari. Pistlar hans um gervigreind birtast vikulega á þriðjudögum á Akureyri.net.

Að temja tæknina II: Í klóm drekans

Magnús Smári Smárason skrifar
02. júlí 2024 | kl. 10:50

Sykur

Sigmundur Ernir Rúnarsson skrifar
01. júlí 2024 | kl. 11:30

Dómgreind

Ólafur Þór Ævarsson skrifar
01. júlí 2024 | kl. 06:00

Seigla og linka

Ólafur Þór Ævarsson skrifar
30. júní 2024 | kl. 06:00

Þú trylltist og varst rekinn út af!

Orri Páll Ormarsson skrifar
28. júní 2024 | kl. 11:00

Birkið og lexíurnar. Birkið við Þórunnarstræti 127

Sigurður Arnarson skrifar
26. júní 2024 | kl. 10:00