Darmowe chińskie AI wygrywa z amerykańskim i powoduje panikę USA

Stany Zjednoczone

Deepseek AI jest najczęściej pobieraną aplikacją w App Store, niedawno było nią jeszcze Xiaohongshu (kolejna chińska aplikacja)

W ostatnich dniach furorę robi nowy model sztucznej inteligencji (LLM) z Chin. Jest nie tylko inteligentniejszy niż zachodnie produkty, ale też posiada otwarte wagi (open weights), jest tańszy w użyciu i można z niego korzystać za darmo. Mowa o modelu Deepseek-R1.

Otwarte wagi

Warto podkreślić, że DeepSeek-R1 nie jest w pełni otwartoźródłowym oprogramowaniem, lecz oferuje otwarte wagi (open weights). Oznacza to, że użytkownicy mają dostęp do parametrów wytrenowanego modelu, co umożliwia jego bezpośrednie wykorzystanie w różnych projektach. Dzięki otwartym wagom możliwy jest fine-tuning modelu – dostrajanie wstępnie wytrenowanego modelu na mniejszych, specyficznych dla danego zadania zbiorach danych. Jest to kluczowe dla zastosowań w niszowych dziedzinach, gdzie standardowy model może wymagać dostosowania do specyficznych kontekstów.

Model DeepSeek-R1 jest rozwinięciem wcześniejszych rozwiązań. Wywodzi się z modeli Qwen (znanego z wydajności w zadaniach logicznych, matematycznych i związanych z programowaniem) oraz Llama, rozwijanego przez Meta. Oba te modele stanowiły bazę, na której zespół DeepSeek opracował ulepszenia, wprowadzając bardziej zaawansowane techniki szkolenia.

Droga rozwoju nie była jednak łatwa. Wcześniejszy, eksperymentalny model DeepSeek-R1-Zero został przeszkolony wyłącznie przy użyciu uczenia ze wzmocnieniem (Reinforcement Learning, RL), bez wcześniejszego nadzorowanego dostrajania (Supervised Fine-Tuning, SFT). Choć model wykazywał zdolności wnioskowania i generowania długich łańcuchów myślowych (Chain-of-Thought, CoT), napotykał istotne problemy, takie jak:

  • Niska czytelność generowanych odpowiedzi,
  • Mieszanie języków, co wpływało negatywnie na jakość wyników.
    Aby przezwyciężyć ograniczenia R1-Zero, w DeepSeek-R1 wprowadzono wieloetapowe szkolenie, które obejmuje:
  • Cold Start: Wykorzystanie początkowych danych do nadzorowanego dostrajania przed procesem uczenia ze wzmocnieniem. Pozwala to modelowi na wypracowanie solidnej podstawy przed skupieniem się na bardziej złożonych zadaniach.
  • Reinforcement Learning: Proces trenowania modelu skoncentrowany na zadaniach wymagających rozumowania, co zwiększa jego zdolności wnioskowania.
  • Rejection Sampling: Poprawa jakości generowanych odpowiedzi poprzez odrzucanie nieodpowiednich próbek, co pozwala modelowi unikać błędnych lub nieczytelnych wyników.
  • Dalsze dostrajanie nadzorowane (SFT): Uzupełnienie RL o nadzorowane dostrajanie w celu poprawy stabilności i precyzji odpowiedzi.

DeepSeek-R1 osiąga wyniki porównywalne z modelem OpenAI-o1-1217 w zadaniach wymagających wnioskowania.

Dobrze i tanio. Bardzo tanio

Z perspektywy konsumenta dany model AI wyróżniają głównie dwie rzeczy:  

  1. Zdolność rozumowania modelu,  
  2. Koszty jego użytkowania.

Deepseek wygrywa na obu polach, choć głównie w kwestii kosztów. Na temat Deepseek zrobiło się głośno jeszcze pod koniec grudnia, gdy firma wypuściła swojego chatbota Deepseek V3. Ten wziął wszystkich zaskoczenia i z miejsca zatrząsnął rynkiem AI. Dzieło Chińczyków okazało się być na podobnym (a miejscami wyższym) poziomie, jeśli chodzi o zdolności rozumowania, co zachodnia konkurencja. Jednocześnie wyprodukowanie i używanie Deepseeka okazało się nieporównywalnie tańsze niż w przypadku amerykańskich modeli.

Koszty na wytrenowanie modelu

  • GPT-4 od OpenAI: ok. 100 milionów dolarów na trening.  
  • Deepseek V3: 6 milionów dolarów (oficjalnie).

Niektórzy eksperci sugerują, że realna cena była wyższa, ponieważ w podanej kwocie uwzględniono jedynie koszt hardware’u, a pominięto wydatki na badania. Niemniej jednak sama optymalizacja obliczeń robi ogromne wrażenie.

Optymalizacja dzięki „mixture of experts”  

Chińczycy wykorzystali technologię "mixture of experts". Polega ona na tym, że model składa się z kilku mniejszych modeli AI, które wspólnie przetwarzają dane w celu stworzenia odpowiedzi. Deepseek zoptymalizował ten proces, zmniejszając wymagania sprzętowe i koszty obliczeń.

Dzięki temu Chiny, mimo amerykańskich sankcji i ograniczonego dostępu do zaawansowanych chipów, zdołały osiągnąć konkurencyjność. Deepseek nie załamie globalnego popytu na chipy AI ze Stanów Zjednoczonych, ale to dobry początek. Co ciekawe pojawiają się głosy, że wyniki Deepseek-R1 zostały sfałszowane lub został on faktycznie wytrenowany na układach scalonych w USA, co mogłoby stanowić naruszenie embarga USA na eksport chipów AI najwyższej klasy.

Nie koniec niespodzianek  

Początkowo Deepseek spotkał się z krytyką, gdyż brakowało mu narzędzia do zaawansowanych obliczeń – tzw. reasoning-centric AI model. Jednak miesiąc później firma zaskoczyła rynek, wypuszczając Deepseek-R1. Marc Andreessen, informatyk i biznesmen, określił premierę R1 jako "moment sputnika AI".

Trwają międzynarodowe targi Hainan Expo w Chinach. Pokaz chińskich możliwości

Czas czytania: 6 minut

Przeczytaj również...

Trwają międzynarodowe targi Hainan Expo w Chinach. Pokaz chińskich możliwości

Reasoning-centric AI model

To rodzaj modelu skoncentrowanego na rozwiązywaniu skomplikowanych problemów logicznych i minimalizowaniu błędów. Deepseek-R1 porównywany jest do flagowego produktu OpenAI, czyli o1, a nie do GPT-4.

  • Benchmarki: Bardzo zbliżone wyniki między R1 a o1, różnice zależą od konkretnego testu.
  • Cena: Kluczowa przewaga R1 – korzystanie z chińskiego modelu jest 27 razy tańsze niż z o1.

Co więcej, producent udostępnia wagi R1 na licencji MIT, co pozwala na darmowe wykorzystanie AI, również w projektach komercyjnych. Obecnie korzystanie z modeli LLM ograniczają głównie:  

  1. Koszty za wykorzystanie tokenów,
  2. Wysokie wymagania sprzętowe.

Deepseek eliminuje te bariery, oferując tani dostęp do API oraz niskie wymagania sprzętowe. Dzięki temu LLM staje się dostępne dla firm, uczelni czy zespołów badawczych – także w krajach takich jak Polska, które mają ograniczony dostęp do zaawansowanych chipów.

OpenAI kontra Deepseek

Wbrew zarzutom, OpenAI również udostępnia darmowe modele, takie jak Whisper, na platformach takich jak Hugging Face. Dzięki dobrze udokumentowanemu i przyjaznemu API firma ta przyczyniła się do popularyzacji AI na świecie, co wykorzystuje wiele SaaS – komercyjnych narzędzi oferujących pewne rozwiązania, najczęściej automatyzujące pracę lub stricte stworzone pod cel biznesowy. Jednocześnie polityka prywatności OpenAI objętościowo jest większa niż ta stosowana przez Deepseek, amerykańska firma gromadzi więcej danych użytkowników.

Panika w amerykańskich firmach

Premiera dwóch produktów Deepseek wywołała panikę wśród amerykańskich gigantów technologicznych:

  • OpenAI i Google: Utrata klientów na rzecz taniego chińskiego AI, które już wyprzedziło konkurencję w amerykańskim App Store.  
  • Nvidia: Spadek wartości akcji o 19,62% w ciągu miesiąca, po obaleniu tezy, że praca nad AI wymaga ogromnych ilości chipów.

Sukces Deepseek, firmy założonej w 2023 roku, jest jednak utrudniany przez oskarżenia o współpracę z Komunistyczną Partią Chin. Pojawiają się też zarzuty, że model ukrywa treści potencjalnie antyrządowe, np. wydarzenia na Placu Tiananmen w 1989 roku, które określa jako "protesty studenckie".

Problemy techniczne czy atak hakerski?

Od 27 stycznia Deepseek informuje o trudnościach w rejestracji nowych użytkowników i komunikacie „Server is busy, please try later”. Media spekulują, że przyczyną mogą być masowe rejestracje kont, a nie atak DDoS, choć taka możliwość nie jest wykluczona. Na chwilę obecną brak oficjalnego potwierdzenia o jakimkolwiek ataku.

Ceny najnowszego modelu Deepseek

Jednym z kluczowych argumentów przemawiających za wykorzystaniem Deepseek jest jego konkurencyjna cena. Najnowszy model Deepseek-R1, znany również pod nazwą niekomercyjną "deepseek-reasoner", oferuje atrakcyjnie niskie stawki za korzystanie z API. Co więcej, API jest w pełni kompatybilne z rozwiązaniami OpenAI, dzięki czemu nie ma potrzeby wprowadzania zmian w istniejących projektach.

  • 0,14 dolarów za milion tokenów wejściowych (cache hit)
  • 0,55 dolarów za milion tokenów wejściowych (cache miss)
  • 2,19 dolara za milion tokenów wejściowych

Czytelniku! Nie przegap naszego następnego artykułu

Podziel się swoją opinią!

Pamiętaj o tym, by zachować się kulturalnie dyskutując z innymi czytelnikami.


0 Komentarzy

Bądź pierwszy! Zostaw swój komentarz pod tym artykułem.