DeepSeek
DeepSeek | |
---|---|
![]() Logo | |
Základní údaje | |
Právní forma | Soukromá |
Datum založení | květen 2023 |
Zakladatel | Liang Wenfeng |
Adresa sídla | Chang-čou, Če-ťiang, Čína |
Charakteristika firmy | |
Oblast činnosti | informační technologie a umělá inteligence |
Mateřská společnost | High-Flyer |
Majitel | High-Flyer |
Identifikátory | |
Oficiální web | deepseek |
Některá data mohou pocházet z datové položky. |
DeepSeek (čínsky 深度求索, pinyin Shēndù Qiúsuǒ) je čínská společnost zabývající se umělou inteligencí, která vyvíjí open-source velké jazykové modely (LLM). Společnost je financována výhradně čínským hedge fondem High-Flyer. Obě společnosti, DeepSeek i High-Flyer, sídlí v Chang-čou v provincii Če-ťiang. Hlavní osobou firmy je Liang Wenfeng.
Pozadí
Společnost High-Flyer založili v roce 2015 tři inženýři z Čeťiangské univerzity, kteří začali během finanční krize v letech 2007–2008 ještě jako studenti obchodovat s cennými papíry. Firma využívala strojové učení k obchodování s akciemi.[1] V roce 2019 založili firmu High-Flyer AI, která se věnovala výzkumu AI algoritmů a jejich základních aplikací.[2] Do roku 2021 všechny strategie High-Flyer využívaly AI, a proto byla firma srovnávána s americkým hedge fondem Renaissance Technologies.[3]
V dubnu 2023 High-Flyer oznámil, že vytvoří novou nezávislou divizi pro výzkum umělé obecné inteligence, která nebude využívána k obchodování s akciemi a bude oddělena od finančního byznysu High-Flyer.[4][5] V květnu 2023 byla tato společnost spuštěna pod názvem DeepSeek.[2][5] Práce firmy DeepSeek je financován společností High-Flyer.[3][5] Rizikové kapitálové společnosti se totiž do financování nehrnuly, protože bylo nepravděpodobné, že by společnost byla schopna v krátkém časovém období dosáhnout exitu.[2]
Po vydání DeepSeek-V2 v květnu 2024, které nabízelo vysoký výkon za nízkou cenu, se DeepSeek stal katalyzátorem cenové války na trhu s AI modely v Číně. Byl rychle označen jako „Pinduoduo v AI“ a další velké technologické společnosti jako ByteDance, Tencent, Baidu a Alibaba začaly snižovat ceny svých AI modelů, aby DeepSeeku dokázaly konkurovat. Navzdory nízké ceně byl DeepSeek ve srovnání se svými konkurenty ziskový, a oni prodělávali.[6]
Zatím se DeepSeek zaměřuje výhradně na výzkum a nemá podrobné plány pro komercializaci.[6] Při náboru nových zaměstnanců preferuje DeepSeek technické schopnosti před pracovními zkušenostmi, takže většina nových zaměstnanců jsou buď čerství absolventi univerzit, nebo vývojáři, kteří za sebou nenají zvláštní kariéru v oboru AI.[5]
Než americká vláda uvalila na Čínu omezení týkající se čipů s umělou inteligencí, zakladatel Liang si vytvořil zásobu více než 10 000 grafických procesorů Nvidia A100. Některé odhady uvádějí až 50 000 kusů.[7]
Kontroverze
DeepSeek čelí kritice kvůli obavám o bezpečnost dat a šíření propagandy. Aplikace ukládá uživatelská data na serverech v Číně a Liang Wenfeng má blízké konexe na Komunistickou stranu Číny,[8] což vyvolává obavy z možného přístupu čínské vlády k těmto informacím.[9] Chatbot poskytuje odpovědi v souladu s oficiálními čínskými postoji, například ohledně lidských práv nebo statusu Tchaj-wanu, což vyvolává obavy z šíření dezinformací a cenzury.[10][11] Offline verze ale cenzurována být nemusí.[12]
Tyto kontroverze vedly k výzvám odborníků k opatrnosti při používání aplikace DeepSeek, zejména kvůli možným rizikům spojeným s ochranou soukromí a národní bezpečností. Někteří odborníci varují před nahráváním citlivých informací do aplikace a upozorňují na riziko šíření dezinformací a možného zneužití dat čínskou vládou.[13]
Izraelsko-americká společnost zaměřená na kybernetickou bezpečnost Wiz Research v lednu 2025 upozornila množství nezabezpečených dat, volně dostupných na internetu. Bez zabezpečení podle ní zůstaly digitální softwarové klíče a protokoly chatu, které podle všeho zachycovaly prompty odesílané uživateli. DeepSeek na dotaz agentury Reuters uvedl, že po upozornění data neprodleně zabezpečil.[14]
Verze jazykových modelů Deepseek
Dne 2. listopadu 2023 DeepSeek představil svůj první model, DeepSeek Coder. Model je zdarma pro výzkumníky i komerční uživatele a je plně open source.[15] Kód modelu je licencován pod licencí MIT s dodatkem licenční smlouvy týkajícím se „otevřeného a zodpovědného použití“ modelu.[16]
Dne 29. listopadu 2023 DeepSeek spustil DeepSeek LLM, který dosáhl 67 miliard parametrů. Měl konkurovat jiným dostupným LLM s výkonem blízkým GPT-4, nicméně měl potíže v oblasti výpočetní efektivity a škálovatelnosti.[15] Byla také vydána chatbotová verze tohoto modelu s názvem DeepSeek Chat.[17]
Model V2
V květnu 2024 byl spuštěn DeepSeek-V2. Financial Times uvedl, že byl levnější než jeho konkurenti, s cenou 2 jüany za milion výstupních tokenů. Žebříček LLM University of Waterloo Tiger Lab zařadil DeepSeek-V2 na sedmé místo.[3]
Model V3
V prosinci 2024 byl spuštěn DeepSeek-V3. Obsahoval 671 miliard parametrů a byl trénován přibližně 55 dní na datasetu 14,8 bilionu tokenů za cenu 5,58 milionu USD,[5] což je výrazně méně zdrojů ve srovnání s konkurenty. Benchmarky ukázaly, že překonal modely Llama 3.1 a Qwen 2.5 a dosáhl srovnatelného výkonu s GPT-4o a Claude 3.5 Sonnet.[5][18][19][20] Optimalizace DeepSeeku na omezené zdroje zdůraznila potenciální limity amerických sankcí na vývoj AI v Číně.[5][21] Noviny The Hill popsaly vydání tohoto modelu jako „Sputnikovou událost“ americké AI, čímž je přirovnaly k šoku Američanů ve chvíli, když Sovětský svaz dokázal na oběžnou dráhu vyslat první umělou družici Země.[22]
Model funguje jako komise expertů s Multi-head Latent Attention Transformerem a obsahuje 256 specializovaných expertů a 1 sdíleného experta. Každý token aktivuje 37 miliard parametrů a více.[23]
Fáze | Náklady v tisících GPU hodin | Náklady v milionech USD |
---|---|---|
Předtrénování | 2664 | 5,328 |
Rozšíření kontextu | 119 | 0,24 |
Ladění | 5 | 0,01 |
Celkem | 2788 | 5,576 |
Model R1
V listopadu 2024 byl uveden model DeepSeek R1-Lite-Preview, trénovaný pro logické usuzování, matematické uvažování a řešení problémů v reálném čase. Ukázal se jako srovnatelný s modelem o1 od OpenAI.[24]
Dne 20. ledna 2025[25] byly vydány modely DeepSeek-R1 a DeepSeek-R1-Zero. Byly založeny na V3-Base. Mají MIT licenci, jsou open-source a volně použitelné.[26] Stejně jako V3 je každý z nich založený na technice mixture of experts s 671 miliardami parametrů celkem a 37 miliardami aktivovaných parametrů při generování odpovědi. Společnost také vydala modely „DeepSeek-R1-Distill“, které však nejsou přímo založeny na R1. Místo toho jsou podobné jiným open-weight modelům, jako jsou LLaMA a Qwen, a byly doladěny na syntetických datech generovaných R1.
R1-Zero je trénován čistě pomocí zpětnovazebního učení (RL) pomocí metody group relative policy optimization (GRPO).[27] Systém odměn je založen na pravidlech a skládá se hlavně ze dvou typů odměn: odměn za přesnost a odměn za formát.
R1 se v únoru 2025 nepodařilo projít bezpečnostními testy a umožňuje tak uživatelům obejít zabezpečený režim, poradí tak uživatelům s ilegálními aktivitami, nebo se objevily bezpečnostní díry v API nebo v zabezpečení databází.[28][29][30]
Janus-Pro-7B
Ke konci ledna 2025 vydali čínští výzkumníci model pro tvorbu obrázků Janus-Pro-7B, který dle benchmarků předčil model DALL-E 3 od Open AI.[31][32]
Reference
V tomto článku byl použit překlad textu z článku DeepSeek na anglické Wikipedii.
- ↑ Billions Going to China's Quants Takes Fight to Global Funds. Bloomberg News. 31. května 2020. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ a b c OTTINGER, Lily. Deepseek: From Hedge Fund to Frontier Model Maker [online]. 9. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ a b c MCMORROW, Ryan; OLCOTT, Eleanor. The Chinese quant fund-turned-AI pioneer. Financial Times. 9. června 2024. Dostupné v archivu pořízeném z originálu.
- ↑ YU, Xu. [Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says [online]. 17. dubna 2023. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ a b c d e f g h JIANG, Ben; PEREZI, Bien. Meet DeepSeek: the Chinese start-up that is changing how AI models are trained [online]. 1. ledna 2025. Dostupné online. (anglicky)
- ↑ a b SCHNEIDER, Jordan. Deepseek: The Quiet Giant Leading China's AI Race [online]. 27. listopadu 2024. Dostupné online. (anglicky)
- ↑ How a top Chinese AI model overcame US sanctions. MIT Technology Review [online]. [cit. 2025-01-27]. Dostupné online. (anglicky)
- ↑ China’s DeepSeek AI poses formidable cyber, data privacy threats | Biometric Update. www.biometricupdate.com [online]. 2025-01-26 [cit. 2025-01-27]. Dostupné online. (anglicky)
- ↑ BARRABI, Thomas. DeepSeek app stores user data in China -- sparking US security concerns: experts [online]. 2025-01-28 [cit. 2025-01-28]. Dostupné online. (anglicky)
- ↑ BOOTH, Robert; MILMO, Dan. Experts urge caution over use of Chinese AI DeepSeek. The Guardian. 2025-01-28. Dostupné online [cit. 2025-01-28]. ISSN 0261-3077. (anglicky)
- ↑ AI aplikace DeepSeek je hit i bezpečnostní riziko: hlavně se jí neptejte na tyto otázky | CHIP.cz. www.chip.cz [online]. [cit. 2025-01-28]. Dostupné online.
- ↑ Chinese AI chatbot DeepSeek censors itself in realtime, users report. www.theguardian.com [online]. [cit. 2025-02-04]. Dostupné online.
- ↑ BOOTH, Robert; MILMO, Dan. Experts urge caution over use of Chinese AI DeepSeek. The Guardian. 2025-01-28. Dostupné online [cit. 2025-01-28]. ISSN 0261-3077. (anglicky)
- ↑ KARLÍK, Tomáš. Citlivá data čínského DeepSeeku byla bez zabezpečení na internetu. ct24.ceskatelevize.cz [online]. [cit. 2025-01-30]. Dostupné online.
- ↑ a b SE, Ksenia. Inside DeepSeek Models [online]. 28. srpna 2024. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder [online]. Dostupné online. (anglicky)
- ↑ SHARMA, Shubham. Meet DeepSeek Chat, China's latest ChatGPT rival with a 67B model [online]. 1. prosince 2023. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ JIANG, Ben. Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products [online]. 27. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ SHARMA, Shubham. DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch [online]. 26. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ WIGGERS, Kyle. DeepSeek's new AI model appears to be one of the best 'open' challengers yet [online]. 26. prosince 2024. Dostupné online.
- ↑ SHILOV, Anton. Chinese AI company's AI model breakthrough highlights limits of US sanctions [online]. 27. prosince 2024. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ WADE, David. American AI has reached its Sputnik moment. The Hill. 2024-12-06. Dostupné v archivu pořízeném z originálu. (anglicky)
- ↑ DEEPSEEK-AI; LIU, Aixin; FENG, Bei; XUE, Bing; WANG, Bingxuan; WU, Bochao; LU, Chengda. DeepSeek-V3 Technical Report. [s.l.]: [s.n.], 2024-12-27. Dostupné online. arXiv 2412.19437.
- ↑ QU, Raffaele Huang and Tracy. Don’t Look Now, but China’s AI Is Catching Up Fast. WSJ [online]. [cit. 2025-01-27]. Dostupné online. (anglicky)
- ↑ Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce [online]. Dostupné online. (anglicky)
- ↑ DeepSeek-R1 Release | DeepSeek API Docs. api-docs.deepseek.com [online]. [cit. 2025-01-27]. Dostupné online. (anglicky)
- ↑ SHAO, Zhihong; WANG, Peiyi; ZHU, Qihao; XU, Runxin; SONG, Junxiao; BI, Xiao; ZHANG, Haowei. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. [s.l.]: [s.n.], 2024-04-27. Dostupné online. doi:10.48550/arXiv.2402.03300.
- ↑ BURGESS, Matt. DeepSeek’s Safety Guardrails Failed Every Test Researchers Threw at Its AI Chatbot. Wired. Dostupné online [cit. 2025-02-03]. ISSN 1059-1028. (anglicky)
- ↑ ADMIN. DeepSeek Jailbreak’s [online]. 2025-01-31 [cit. 2025-02-03]. Dostupné online. (anglicky)
- ↑ DeepSeek Failed Over Half of the Jailbreak Tests by Qualys TotalAI. Qualys Security Blog [online]. 2025-02-01 [cit. 2025-02-03]. Dostupné online. (anglicky)
- ↑ https://www.reuters.com/technology/deepseeks-janus-pro-ai-model-beats-rivals-image-generation-2025-01-27/
- ↑ LAWLER, Richard. DeepSeek says its newest AI model, Janus-Pro can outperform Stable Diffusion and DALL-E 3.. The Verge [online]. 2025-01-27 [cit. 2025-01-27]. Dostupné online. (anglicky)
Externí odkazy
Obrázky, zvuky či videa k tématu DeepSeek na Wikimedia Commons
- Oficiální stránky
- Sbírka článků DeepSeek