Bielik powstał w wyniku prac zespołu działającego w ramach Fundacji SpeakLeash i Cyfronetu AGH. Jest on polskim modelem z kategorii LLM (Large Language Models), czyli dużym modelem językowym posiadającym 11 miliardów parametrów. To bardzo przydatne narzędzie, ponieważ LLM może wykonywać wiele różnych zadań związanych z przetwarzaniem języka naturalnego – odpowiadać na pytania (zastępując wyszukiwarki internetowe), dokonywać tłumaczeń na języki obce, generować własne treści itp.
SpeakLeash – jak pasjonaci stworzyli Bielika
SpeakLeash to fundacja łącząca ludzi bardzo różnych profesji. Za cel postawili oni sobie stworzenie największego polskiego zbioru danych tekstowych, wzorując się na zagranicznych inicjatywach (jak The Pile). W skład zespołu projektowego wchodzą głównie pracownicy polskich przedsiębiorstw, badacze z ośrodków naukowych i studenci kierunków związanych ze sztuczną inteligencją. Prace zespołu nad polskim modelem językowym trwały ponad rok, a ich pierwotny zakres obejmował m.in. zbieranie danych, ich przetwarzanie i klasyfikację.
– Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie – tłumaczy Sebastian Kondracki ze SpeakLeash, pomysłodawca Bielika.
Obecnie zasoby Fundacji SpeakLeash są największym, a także najlepiej opisanym i udokumentowanym zbiorem danych w języku polskim.
Superkomputery Helios i Athena zaprzęgnięte do pracy
Rozwinąć skrzydła pozwoliły Bielikowi superkomputery z Akademickiego Centrum Komputerowego Cyfronet AGH. Współpraca kadry Akademii Górniczo-Hutniczej z fundacją Speakleash umożliwiła wykorzystanie ogromnych mocy obliczeniowych Heliosa i Atheny niezbędnych do stworzenia modelu.
– Zasoby Heliosa, najszybszej aktualnie maszyny w Polsce, wykorzystaliśmy do uczenia modeli językowych – wyjaśnia Marek Magryś, zastępca dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy. – Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i przede wszystkim mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych. Dzięki pracy zespołu SpeakLeash i AGH udało nam się stworzyć Bielika – model LLM, który doskonale radzi sobie z naszym językiem oraz kontekstem kulturowym i który może być kluczowym elementem łańcuchów przetwarzania danych tekstowych dla naszego języka w zastosowaniach naukowych i biznesowych. Potwierdzeniem jakości Bielika są wysokie lokaty uzyskane przez model na listach rankingowych dla języka polskiego.
Jak duża jest moc obliczeniowa Heliosa i Atheny? W tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji – aż 2 EFLOPS. – Nasze systemy umożliwiają przeprowadzenie w kilka godzin lub dni obliczeń, które na zwykłych komputerach mogłyby trwać lata lub w niektórych przypadkach nawet stulecia – mówi Marek Magryś.
Bielik a ChatGPT
Twórcy Bielika zwracają uwagę, że zbiór zasilających go danych cały czas rośnie, ale trudno się ścigać z zasobami wykorzystywanymi przez inne modele funkcjonujące w języku angielskim. Poza tym liczba treści w internecie, która funkcjonuje w języku polskim, jest znacznie mniejsza niż w angielskim.
Najbardziej popularnym produktem wykorzystującym duży model językowy jest dobrze już znany ChatGPT, który powstał w oparciu o zasoby firmy OpenAI. Konieczność opracowywania modeli językowych w innych językach znajduje jednak swoje uzasadnienie.
– O ile ChatGPT potrafi mówić w języku polskim, to nasycony jest treściami w języku angielskim. Ma więc nikłe pojęcie na temat np. polskiej kultury czy niuansów polskiej literatury. Nie do końca też sobie radzi ze zrozumieniem logiki bardziej skomplikowanych tekstów, np. prawnych czy medycznych. Jeśli chcielibyśmy zastosować go w tych właśnie specjalistycznych obszarach i mieć model językowy, który dobrze rozumuje w języku polskim oraz odpowiada poprawną polszczyzną, to nie możemy opierać się wyłącznie na zagranicznych modelach językowych – tłumaczy Marek Magryś.
– Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym i biznesowym, może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku – wyjaśnia Szymon Mazurek z ACK Cyfronet AGH.
Dlaczego warto budować polskie modele językowe?
Jak wyjaśniają twórcy Bielika, usługi sztucznej inteligencji funkcjonujące w internecie, w tym te najpopularniejsze – jak ChatGPT, utrzymywane są na serwerach zewnętrznych. Jeśli jakaś firma czy branża rozwija rozwiązanie, które operuje na specjalistycznych danych (np. medycznych) lub na tekstach, które z różnych powodów nie mogą opuścić firmy (np. są poufne), to jedyną możliwością jest uruchomienie takiego modelu u siebie. Ten model nie będzie tak doskonały jak ChatGPT, ale nie musi też być tak bardzo ogólny.
Dodatkową korzyścią płynącą z uruchomienia modeli językowych typu Bielik jest wzmocnienie pozycji Polski w obszarze innowacji w sektorze AI. Ponadto, co podkreślają twórcy, warto zabiegać o to, aby budować własne narzędzia i tym samym uniezależniać się od zewnętrznych firm, które w przypadku zawirowań na rynkach, regulacji czy ograniczeń prawnych mogą np. uniemożliwiać dostęp do swoich zasobów. Tym samym rozwijając i udoskonalając narzędzia w Polsce, budujemy stabilne zaplecze i jesteśmy w stanie zabezpieczać wiele naszych sektorów – bankowy, administracyjny, medyczny lub prawniczy.
– Intensywne prace nad rozwojem AI, modelami językowymi typu Bielik czy innymi narzędziami opartymi o sztuczną inteligencję są w interesie wszystkich dobrze działających gospodarek. Obserwujemy wzmożone prace nad tego typu rozwiązaniami w wielu krajach – wyjaśnia Jan Maria Kowalski z Fundacji Speakleash.
Twórcy Bielika udostępnili możliwość jego nieodpłatnego testowania: bielik.ai.
