DeepSeek

DeepSeek
Logo
Logo
Základní údaje
Právní formaSoukromá
Datum založeníkvěten 2023
ZakladatelLiang Wenfeng
Adresa sídlaChang-čou, Če-ťiang, Čína
Charakteristika firmy
Oblast činnostiinformační technologie a umělá inteligence
Mateřská společnostHigh-Flyer
MajitelHigh-Flyer
Identifikátory
Oficiální webdeepseek.com
Některá data mohou pocházet z datové položky.

DeepSeek (čínsky 深度求索, pinyin Shēndù Qiúsuǒ) je čínská společnost zabývající se umělou inteligencí, která vyvíjí open-source velké jazykové modely (LLM). Společnost je financována výhradně čínským hedge fondem High-Flyer. Obě společnosti, DeepSeek i High-Flyer, sídlí v Chang-čou v provincii Če-ťiang. Hlavní osobou firmy je Liang Wenfeng.

Pozadí

Společnost High-Flyer založili v roce 2015 tři inženýři z Čeťiangské univerzity, kteří začali během finanční krize v letech 2007–2008 ještě jako studenti obchodovat s cennými papíry. Firma využívala strojové učení k obchodování s akciemi.[1] V roce 2019 založili firmu High-Flyer AI, která se věnovala výzkumu AI algoritmů a jejich základních aplikací.[2] Do roku 2021 všechny strategie High-Flyer využívaly AI, a proto byla firma srovnávána s americkým hedge fondem Renaissance Technologies.[3]

V dubnu 2023 High-Flyer oznámil, že vytvoří novou nezávislou divizi pro výzkum umělé obecné inteligence, která nebude využívána k obchodování s akciemi a bude oddělena od finančního byznysu High-Flyer.[4][5] V květnu 2023 byla tato společnost spuštěna pod názvem DeepSeek.[2][5] Práce firmy DeepSeek je financován společností High-Flyer.[3][5] Rizikové kapitálové společnosti se totiž do financování nehrnuly, protože bylo nepravděpodobné, že by společnost byla schopna v krátkém časovém období dosáhnout exitu.[2]

Po vydání DeepSeek-V2 v květnu 2024, které nabízelo vysoký výkon za nízkou cenu, se DeepSeek stal katalyzátorem cenové války na trhu s AI modely v Číně. Byl rychle označen jako „Pinduoduo v AI“ a další velké technologické společnosti jako ByteDance, Tencent, Baidu a Alibaba začaly snižovat ceny svých AI modelů, aby DeepSeeku dokázaly konkurovat. Navzdory nízké ceně byl DeepSeek ve srovnání se svými konkurenty ziskový, a oni prodělávali.[6]

Zatím se DeepSeek zaměřuje výhradně na výzkum a nemá podrobné plány pro komercializaci.[6] Při náboru nových zaměstnanců preferuje DeepSeek technické schopnosti před pracovními zkušenostmi, takže většina nových zaměstnanců jsou buď čerství absolventi univerzit, nebo vývojáři, kteří za sebou nenají zvláštní kariéru v oboru AI.[5]

Než americká vláda uvalila na Čínu omezení týkající se čipů s umělou inteligencí, zakladatel Liang si vytvořil zásobu více než 10 000 grafických procesorů Nvidia A100. Některé odhady uvádějí až 50 000 kusů.[7]

Kontroverze

DeepSeek čelí kritice kvůli obavám o bezpečnost dat a šíření propagandy. Aplikace ukládá uživatelská data na serverech v Číně a Liang Wenfeng má blízké konexe na Komunistickou stranu Číny,[8] což vyvolává obavy z možného přístupu čínské vlády k těmto informacím.[9] Chatbot poskytuje odpovědi v souladu s oficiálními čínskými postoji, například ohledně lidských práv nebo statusu Tchaj-wanu, což vyvolává obavy z šíření dezinformací a cenzury.[10][11] Offline verze ale cenzurována být nemusí.[12]

Tyto kontroverze vedly k výzvám odborníků k opatrnosti při používání aplikace DeepSeek, zejména kvůli možným rizikům spojeným s ochranou soukromí a národní bezpečností. Někteří odborníci varují před nahráváním citlivých informací do aplikace a upozorňují na riziko šíření dezinformací a možného zneužití dat čínskou vládou.[13]

Izraelsko-americká společnost zaměřená na kybernetickou bezpečnost Wiz Research v lednu 2025 upozornila množství nezabezpečených dat, volně dostupných na internetu. Bez zabezpečení podle ní zůstaly digitální softwarové klíče a protokoly chatu, které podle všeho zachycovaly prompty odesílané uživateli. DeepSeek na dotaz agentury Reuters uvedl, že po upozornění data neprodleně zabezpečil.[14]

Verze jazykových modelů Deepseek

Dne 2. listopadu 2023 DeepSeek představil svůj první model, DeepSeek Coder. Model je zdarma pro výzkumníky i komerční uživatele a je plně open source.[15] Kód modelu je licencován pod licencí MIT s dodatkem licenční smlouvy týkajícím se „otevřeného a zodpovědného použití“ modelu.[16]

Dne 29. listopadu 2023 DeepSeek spustil DeepSeek LLM, který dosáhl 67 miliard parametrů. Měl konkurovat jiným dostupným LLM s výkonem blízkým GPT-4, nicméně měl potíže v oblasti výpočetní efektivity a škálovatelnosti.[15] Byla také vydána chatbotová verze tohoto modelu s názvem DeepSeek Chat.[17]

Model V2

V květnu 2024 byl spuštěn DeepSeek-V2. Financial Times uvedl, že byl levnější než jeho konkurenti, s cenou 2 jüany za milion výstupních tokenů. Žebříček LLM University of Waterloo Tiger Lab zařadil DeepSeek-V2 na sedmé místo.[3]

Model V3

V prosinci 2024 byl spuštěn DeepSeek-V3. Obsahoval 671 miliard parametrů a byl trénován přibližně 55 dní na datasetu 14,8 bilionu tokenů za cenu 5,58 milionu USD,[5] což je výrazně méně zdrojů ve srovnání s konkurenty. Benchmarky ukázaly, že překonal modely Llama 3.1 a Qwen 2.5 a dosáhl srovnatelného výkonu s GPT-4o a Claude 3.5 Sonnet.[5][18][19][20] Optimalizace DeepSeeku na omezené zdroje zdůraznila potenciální limity amerických sankcí na vývoj AI v Číně.[5][21] Noviny The Hill popsaly vydání tohoto modelu jako „Sputnikovou událost“ americké AI, čímž je přirovnaly k šoku Američanů ve chvíli, když Sovětský svaz dokázal na oběžnou dráhu vyslat první umělou družici Země.[22]

Model funguje jako komise expertů s Multi-head Latent Attention Transformerem a obsahuje 256 specializovaných expertů a 1 sdíleného experta. Každý token aktivuje 37 miliard parametrů a více.[23]

Celkové náklady na trénování modelu DeepSeek-V3[5]
Fáze Náklady v tisících GPU hodin Náklady v milionech USD
Předtrénování 2664 5,328
Rozšíření kontextu 119 0,24
Ladění 5 0,01
Celkem 2788 5,576

Model R1

V listopadu 2024 byl uveden model DeepSeek R1-Lite-Preview, trénovaný pro logické usuzování, matematické uvažování a řešení problémů v reálném čase. Ukázal se jako srovnatelný s modelem o1 od OpenAI.[24]

Dne 20. ledna 2025[25] byly vydány modely DeepSeek-R1 a DeepSeek-R1-Zero. Byly založeny na V3-Base. Mají MIT licenci, jsou open-source a volně použitelné.[26] Stejně jako V3 je každý z nich založený na technice mixture of experts s 671 miliardami parametrů celkem a 37 miliardami aktivovaných parametrů při generování odpovědi. Společnost také vydala modely „DeepSeek-R1-Distill“, které však nejsou přímo založeny na R1. Místo toho jsou podobné jiným open-weight modelům, jako jsou LLaMA a Qwen, a byly doladěny na syntetických datech generovaných R1.

R1-Zero je trénován čistě pomocí zpětnovazebního učení (RL) pomocí metody group relative policy optimization (GRPO).[27] Systém odměn je založen na pravidlech a skládá se hlavně ze dvou typů odměn: odměn za přesnost a odměn za formát.

R1 se v únoru 2025 nepodařilo projít bezpečnostními testy a umožňuje tak uživatelům obejít zabezpečený režim, poradí tak uživatelům s ilegálními aktivitami, nebo se objevily bezpečnostní díry v API nebo v zabezpečení databází.[28][29][30]

Janus-Pro-7B

Ke konci ledna 2025 vydali čínští výzkumníci model pro tvorbu obrázků Janus-Pro-7B, který dle benchmarků předčil model DALL-E 3 od Open AI.[31][32]

Reference

V tomto článku byl použit překlad textu z článku DeepSeek na anglické Wikipedii.

  1. Billions Going to China's Quants Takes Fight to Global Funds. Bloomberg News. 31. května 2020. Dostupné v archivu pořízeném z originálu. (anglicky) 
  2. a b c OTTINGER, Lily. Deepseek: From Hedge Fund to Frontier Model Maker [online]. 9. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky) 
  3. a b c MCMORROW, Ryan; OLCOTT, Eleanor. The Chinese quant fund-turned-AI pioneer. Financial Times. 9. června 2024. Dostupné v archivu pořízeném z originálu. 
  4. YU, Xu. [Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says [online]. 17. dubna 2023. Dostupné v archivu pořízeném z originálu. (anglicky) 
  5. a b c d e f g h JIANG, Ben; PEREZI, Bien. Meet DeepSeek: the Chinese start-up that is changing how AI models are trained [online]. 1. ledna 2025. Dostupné online. (anglicky) 
  6. a b SCHNEIDER, Jordan. Deepseek: The Quiet Giant Leading China's AI Race [online]. 27. listopadu 2024. Dostupné online. (anglicky) 
  7. How a top Chinese AI model overcame US sanctions. MIT Technology Review [online]. [cit. 2025-01-27]. Dostupné online. (anglicky) 
  8. China’s DeepSeek AI poses formidable cyber, data privacy threats | Biometric Update. www.biometricupdate.com [online]. 2025-01-26 [cit. 2025-01-27]. Dostupné online. (anglicky) 
  9. BARRABI, Thomas. DeepSeek app stores user data in China -- sparking US security concerns: experts [online]. 2025-01-28 [cit. 2025-01-28]. Dostupné online. (anglicky) 
  10. BOOTH, Robert; MILMO, Dan. Experts urge caution over use of Chinese AI DeepSeek. The Guardian. 2025-01-28. Dostupné online [cit. 2025-01-28]. ISSN 0261-3077. (anglicky) 
  11. AI aplikace DeepSeek je hit i bezpečnostní riziko: hlavně se jí neptejte na tyto otázky | CHIP.cz. www.chip.cz [online]. [cit. 2025-01-28]. Dostupné online. 
  12. Chinese AI chatbot DeepSeek censors itself in realtime, users report. www.theguardian.com [online]. [cit. 2025-02-04]. Dostupné online. 
  13. BOOTH, Robert; MILMO, Dan. Experts urge caution over use of Chinese AI DeepSeek. The Guardian. 2025-01-28. Dostupné online [cit. 2025-01-28]. ISSN 0261-3077. (anglicky) 
  14. KARLÍK, Tomáš. Citlivá data čínského DeepSeeku byla bez zabezpečení na internetu. ct24.ceskatelevize.cz [online]. [cit. 2025-01-30]. Dostupné online. 
  15. a b SE, Ksenia. Inside DeepSeek Models [online]. 28. srpna 2024. Dostupné v archivu pořízeném z originálu. (anglicky) 
  16. DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder [online]. Dostupné online. (anglicky) 
  17. SHARMA, Shubham. Meet DeepSeek Chat, China's latest ChatGPT rival with a 67B model [online]. 1. prosince 2023. Dostupné v archivu pořízeném z originálu. (anglicky) 
  18. JIANG, Ben. Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products [online]. 27. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky) 
  19. SHARMA, Shubham. DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch [online]. 26. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky) 
  20. WIGGERS, Kyle. DeepSeek's new AI model appears to be one of the best 'open' challengers yet [online]. 26. prosince 2024. Dostupné online. 
  21. SHILOV, Anton. Chinese AI company's AI model breakthrough highlights limits of US sanctions [online]. 27. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky) 
  22. WADE, David. American AI has reached its Sputnik moment. The Hill. 2024-12-06. Dostupné v archivu pořízeném z originálu. (anglicky) 
  23. DEEPSEEK-AI; LIU, Aixin; FENG, Bei; XUE, Bing; WANG, Bingxuan; WU, Bochao; LU, Chengda. DeepSeek-V3 Technical Report. [s.l.]: [s.n.], 2024-12-27. Dostupné online. arXiv 2412.19437. 
  24. QU, Raffaele Huang and Tracy. Don’t Look Now, but China’s AI Is Catching Up Fast. WSJ [online]. [cit. 2025-01-27]. Dostupné online. (anglicky) 
  25. Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce [online]. Dostupné online. (anglicky) 
  26. DeepSeek-R1 Release | DeepSeek API Docs. api-docs.deepseek.com [online]. [cit. 2025-01-27]. Dostupné online. (anglicky) 
  27. SHAO, Zhihong; WANG, Peiyi; ZHU, Qihao; XU, Runxin; SONG, Junxiao; BI, Xiao; ZHANG, Haowei. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. [s.l.]: [s.n.], 2024-04-27. Dostupné online. doi:10.48550/arXiv.2402.03300. 
  28. BURGESS, Matt. DeepSeek’s Safety Guardrails Failed Every Test Researchers Threw at Its AI Chatbot. Wired. Dostupné online [cit. 2025-02-03]. ISSN 1059-1028. (anglicky) 
  29. ADMIN. DeepSeek Jailbreak’s [online]. 2025-01-31 [cit. 2025-02-03]. Dostupné online. (anglicky) 
  30. DeepSeek Failed Over Half of the Jailbreak Tests by Qualys TotalAI. Qualys Security Blog [online]. 2025-02-01 [cit. 2025-02-03]. Dostupné online. (anglicky) 
  31. https://www.reuters.com/technology/deepseeks-janus-pro-ai-model-beats-rivals-image-generation-2025-01-27/
  32. LAWLER, Richard. DeepSeek says its newest AI model, Janus-Pro can outperform Stable Diffusion and DALL-E 3.. The Verge [online]. 2025-01-27 [cit. 2025-01-27]. Dostupné online. (anglicky) 

Externí odkazy