不管你有沒有在關(guān)注AI,可能都聽說過DeepSeek(深度求索)。這個最新國產(chǎn)大模型究竟有什么魔力?不僅在AI領(lǐng)域“破圈”,還做到全國,甚至全世界都認識。
我在集中閱讀了DeepSeek相關(guān)資訊,并深度實踐了DeepSeek之后,寫下了此文。我總結(jié)了10個最應(yīng)該了解的主題,讓你一文讀懂DeepSeek。
一、DeepSeek簡述
DeepSeek是一家專注于通用人工智能(AGI)技術(shù)研發(fā)的中國公司,位于中國杭州。
該公司成立于2023年,由其母公司幻方量化創(chuàng)立并投資,創(chuàng)始人是梁文鋒。
DeepSeek自成立起就放棄做追隨者,致力于大模型創(chuàng)新。它的故事就是一系列開源產(chǎn)品的發(fā)布,兩年內(nèi)它已經(jīng)做出:

以上,我們可以看出DeepSeek從代碼模型起步,逐步擴展至通用、數(shù)學、長上下文及推理領(lǐng)域,通過開源策略推動技術(shù)創(chuàng)新,其核心突破在于高效架構(gòu)(MLA、MoE)和低成本訓練,挑戰(zhàn)了傳統(tǒng)高資源投入的AI開發(fā)模式。
其實早在V2時期,DeepSeek成本降低就已經(jīng)引發(fā)業(yè)內(nèi)人士關(guān)注,但直到2025年1月20日DeepSeek-R1發(fā)布,才開始破圈,迅速引爆全球關(guān)注。
總的來說,DeepSeek是一家年輕的AI創(chuàng)業(yè)公司。它們才剛開始,卻已經(jīng)登上高峰。
二、創(chuàng)始人及背后開發(fā)團隊
與DeepSeek的故事一樣吸引人的,是它背后的公司和人。
DeepSeek的創(chuàng)始人梁文鋒,1985年出生于廣東湛江吳川市,父母均是小學教師。他自小在學習上就展現(xiàn)出很高的天賦,尤其是在數(shù)學領(lǐng)域。
梁文鋒在初中階段就完成了高中的數(shù)學課程,并開始學習大學數(shù)學。17歲時,他便以吳川市第一中學“高考狀元”的身份進入了浙江大學信息與電子工程學系,相繼獲得本碩學位后,于2010年畢業(yè)。
在大學期間,梁文鋒就對金融市場產(chǎn)生了濃厚的興趣。2008年,他帶領(lǐng)團隊探索機器學習技術(shù)在全自動量化交易中的應(yīng)用。兩年之后的2010年,隨著滬深300股指期貨推出,量化投資迎來了春天,梁文鋒和他的團隊大賺了一筆,自營資金超過5億元。
要知道,此時他才剛剛畢業(yè)。
畢業(yè)后,梁文鋒在許多領(lǐng)域都嘗試引入人工智能,但這些嘗試都失敗了。于是他又將目標瞄準了老本行金融,重新將人工智能引入金融交易。
就這樣,2015年梁文鋒與另外兩名浙江大學的校友創(chuàng)立了幻方量化(High-Flyer),立志成為世界頂級的量化對沖基金。憑借技術(shù)優(yōu)勢,幻方量化迅速成為國內(nèi)量化對沖基金的龍頭。至2019年,其管理資金規(guī)模突破百億元,展現(xiàn)出卓越的商業(yè)化能力。這一階段的成功不僅為其積累了雄厚的資金基礎(chǔ),更錘煉了團隊在高性能計算領(lǐng)域的實戰(zhàn)經(jīng)驗。
在此期間,梁文鋒越發(fā)認識到AI的影響力,因此幻方量化不斷投資AI,包括購買芯片。
到2023年時機成熟之后,梁文鋒宣布進軍通用人工智能(AGI),正式成立杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(DeepSeek),標志著其從金融領(lǐng)域向硬核科技的跨越。
我們可以看出,在成立DeepSeek之前,梁文鋒創(chuàng)建的幻方量化是一家專注于量化投資的中國金融科技公司。
幻方量化的核心優(yōu)勢在于“技術(shù)閉環(huán)”。旗下子公司幻方科技專門研發(fā)底層技術(shù)平臺,包括高性能計算、數(shù)據(jù)建模等,為投資策略提供算力支持。兩者團隊高度重疊,共享辦公地址,形成“技術(shù)研發(fā)+資產(chǎn)管理”的協(xié)同模式。其策略融合高頻交易、統(tǒng)計套利和機器學習,例如以毫秒級速度捕捉價差,或通過歷史數(shù)據(jù)挖掘股票間的關(guān)聯(lián)規(guī)律。這種自動化操作減少了人為情緒干擾,同時通過分散投資和對沖工具控制風險。
或許,DeepSeek在最開始是為了“投資做決策”,但今日,DeepSeek已經(jīng)不僅僅是決策,它的目標一定是星辰大海。DeepSeek有如此突破性的發(fā)展,主要歸功于其開發(fā)團隊。
這支團隊的成員大多來自中國頂尖高校,以90后和95后為主力,平均年齡僅28歲,90后占比超過75%,95后占比達50%以上。團隊成員學歷背景卓越,其中85%以上擁有碩士學位,40%為博士,核心成員大多畢業(yè)于清華大學、北京大學、浙江大學等國內(nèi)頂級學府,且完全由本土培養(yǎng),無“海歸”背景。例如,高華佐(北大物理系)、曾旺丁(北郵通信專業(yè))、邵智宏(清華人工智能博士生)等成員主導了關(guān)鍵模型架構(gòu)的創(chuàng)新,而“AI神童”羅福莉(北師大本科、北大碩士)在DeepSeek-V2的研發(fā)中貢獻了突破性思路。
團隊管理采用扁平化模式,打破了傳統(tǒng)的職級制度,鼓勵自下而上的“自然分工”。成員可自由選擇研究方向并組隊,資源調(diào)配不設(shè)上限,甚至允許在讀博士生參與核心項目。
這種靈活性使得團隊能夠快速響應(yīng)技術(shù)挑戰(zhàn),例如僅用600萬美元預(yù)算就開發(fā)出媲美GPT-4的DeepSeek-R1模型,成本僅為競爭對手的1/30。此外,團隊拒絕“賽馬機制”和資歷優(yōu)先文化,更傾向于招募應(yīng)屆生和競賽獲獎?wù)?,例如讓世界超算冠軍趙成鋼負責搭建高效訓練架構(gòu)。
技術(shù)創(chuàng)新方面,團隊通過自主研發(fā)的MLA架構(gòu)和GRPO算法顯著降低了訓練成本,其開源的DeepSeek-V2模型在中文綜合能力上對標GPT-4 Turbo,英文能力與LLaMA3-70B并列第一梯隊。成員朱琪豪主導的DeepSeek-Coder-V1優(yōu)化了代碼生成能力,而代達勱則推動語言模型升級至DeepSeek LLM V3。這些成就印證了團隊“原創(chuàng)式創(chuàng)新”的理念—他們不僅開源代碼與論文,更通過基礎(chǔ)研究突破(如稀疏模型架構(gòu))重構(gòu)行業(yè)成本標準。
盡管團隊規(guī)模僅約140人,但憑借高人才密度與充足的算力支持(依托梁文鋒創(chuàng)立的幻方量化資源),DeepSeek實現(xiàn)了從推理模型到文生圖模型的多維度突破。其成員多為“技術(shù)理想主義者”,例如梁文鋒強調(diào)“工程師而非商人”的定位,拒絕短期商業(yè)化壓力,專注于通用人工智能(AGI)的長期目標。這種文化吸引了大量頂尖畢業(yè)生,例如小米曾以千萬元年薪試圖挖角團隊成員羅福莉,但DeepSeek通過高薪(如深度學習研究員崗位年薪達154萬元)和自由創(chuàng)新的環(huán)境保持了人才凝聚力。
DeepSeek團隊以本土年輕科學家為核心,通過自主創(chuàng)新與高效協(xié)作,在成本控制和技術(shù)性能上樹立了新標桿,其成功印證了中國科技人才在全球化競爭中的突破潛力。
三、DeepSeek為什么會成功?
媒體經(jīng)常把DeepSeek的成功塑造成一個奇跡,就像是天降神兵一樣。但在科技競爭激烈的今天,沒有什么成功是隨隨便便的,DeepSeek不是一個“副業(yè)”,而是一群有理想、有實力的人打造的驚艷作品。
它的成功有以下4個原因:
(1)技術(shù)突破,實現(xiàn)低成本、高成效。
DeepSeek的核心競爭力,在于用“精準激活”替代“暴力堆料”。通過Multi-Token Prediction(MTP)和Multi-Head Latent Attention(MLA)等原創(chuàng)技術(shù),DeepSeek大幅降低了計算資源需求,將每次推理所需的KV緩存(Key-Value Cache)減少93.3%,相當于原本需要100度電才能完成的任務(wù),現(xiàn)在只需6.7度電。這種技術(shù)像“節(jié)能燈”一樣,只在需要的區(qū)域點亮算力,而非全盤激活。
更令人驚嘆的是其R1模型,通過純深度學習的自發(fā)涌現(xiàn)能力,在數(shù)學和編程任務(wù)中達到頂尖水平,甚至超越Claude 3.5 Sonnet(Anthropic公司推出的AI模型),而推理成本顯著低于后者。這背后是多階段訓練法的革新:用規(guī)則獎勵替代人工標注,砍掉冗余環(huán)節(jié),將訓練成本壓縮至OpenAI的1/20。
此外,它的V3模型性能也已接近GPT-4o(OpenAI為聊天機器人ChatGPT發(fā)布的語言模型),但成本僅需600萬美元(預(yù)訓練階段),而OpenAI同類模型的訓練成本高達數(shù)億美元。
(2)硬件提前布局。DeepSeek母公司幻方量化是一家中國對沖基金,也是最早在其交易算法中采用AI的先行者。他們早早就意識到了AI在金融以外領(lǐng)域的潛力以及擴展能力的重要性,因此不斷增加GPU的供應(yīng)。
此外,為了讓DeepSeek進一步發(fā)展,幻方量化2023年就將其分拆獨立出去,并且為其構(gòu)建了5萬塊GPU的超級集群,用的是H800(算力等同H100)和 H20(高帶寬版)合規(guī)芯片。
這種布局使其在算法突破時能夠快速驗證。
(3)組織模式:極客驅(qū)動的“特種部隊”。DeepSeek的團隊像一支“算法特種部隊”:其人才來自北大、浙大等頂尖高校,提供130萬美元(約934萬元)年薪,遠超國內(nèi)同行;總共不足150人的小團隊+無官僚層級,讓它們的決策和反應(yīng)遠高于大公司,且這些高精尖人才可無限制調(diào)用超1萬元的GPU。它們還自建了數(shù)據(jù)中心,掌控全技術(shù)棧,避免外部依賴。
這種“小而精”的模式,讓DeepSeek能像初創(chuàng)公司一樣敏捷,卻擁有巨頭級的算力資源。
(4)開源免費策略。在DeepSeek之前,最好的大模型是以ChatGPT、Claude(Anthropic發(fā)布的大型語言模型)、豆包等為首的閉源大
模型。普通人只能使用,無法知道它背后的實現(xiàn)。而同期的開源大模型,如LLama、Qwen更多用在特定領(lǐng)域,整體給人的感覺與第一梯隊的ChatGPT有差距。但是DeepSeek完全改變了此現(xiàn)象,原來開源也能如此好用。讓大量普通人也來使用和傳播DeepSeek,此舉讓DeepSeek成為了現(xiàn)象級產(chǎn)品。
四、DeepSeek造成的影響
DeepSeek如此成功,產(chǎn)生的影響也不可估量。
我們大多數(shù)人都會因為有這個產(chǎn)品而高興,因為它是我們國產(chǎn)的。不僅產(chǎn)品是國產(chǎn)的,連開發(fā)團隊也都是中國人。近年來,人工智能技術(shù)一直由美國主導,而國內(nèi)則處于跟隨狀態(tài)。
我估計不少人心中都憋著一股氣,在等待國產(chǎn)產(chǎn)品真正領(lǐng)先的時候,沒想到這個時候來得這么快、這么突然,怎能不讓人驚喜。
除了民族自豪感,對普通人最大的影響是可以免費用到如此好用的AI工具。DeepSeek在開發(fā)、數(shù)學、推理等方面,都處于第一梯隊,是真正可以提高你生產(chǎn)力的產(chǎn)品,這也是所有人都想要的原因?,F(xiàn)在在媒體平臺上,很多人都在講DeepSeek,盡管有流量的原因,但更本質(zhì)的還是DeepSeek真正滿足了人們的需求,有需求才有流量。
得益于DeepSeek的優(yōu)秀性能和開源特性,更多普通用戶得以接觸前沿AI技術(shù),大大幫助到了每一個普通人。
DeepSeek的出現(xiàn)顯著改變了國內(nèi)AI行業(yè)的競爭格局。它憑借低成本和開源的發(fā)展策略,迫使字節(jié)跳動、騰訊、阿里等科技巨頭不得不重新調(diào)整價格和技術(shù)路線。更重要的是,其開放的技術(shù)框架吸引了大量的開發(fā)者參與,加速了醫(yī)療診斷、多模態(tài)等領(lǐng)域的技術(shù)創(chuàng)新和應(yīng)用落地。
在商業(yè)領(lǐng)域,極大地降低了企業(yè)應(yīng)用AI的門檻。這不僅讓眾多中小企業(yè)有機會部署AI解決方案,還在智能家居、數(shù)字營銷、教育等領(lǐng)域催生了新的商業(yè)模式。特別是其簡化的交互方式,讓用戶無需掌握復(fù)雜的提示詞就能獲得服務(wù),逐步改變了人們的使用習慣。
在國際競爭方面,引發(fā)了西方國家的高度關(guān)注。美國采取限制芯片出口等措施,歐洲則加強監(jiān)管審查,反映出西方對中國AI技術(shù)發(fā)展的戒備。這種局勢也促使谷歌、微軟等科技巨頭加速技術(shù)創(chuàng)新,以維持其市場地位。
五、DeepSeek面臨什么問題?
雖然DeepSeek取得了重大突破,獲得了廣泛關(guān)注,表面一切欣欣向榮。但所謂樹大招風,何況DeepSeek也會觸及到一些企業(yè)的利益。所以反噬和競爭會接踵而至。
第一,硬件問題仍然是卡點。
DeepSeek的核心突破在于“用算法換芯片”:其創(chuàng)新的動態(tài)計算技術(shù),讓同等算力下模型訓練效率提升數(shù)倍。這相當于用“戰(zhàn)術(shù)創(chuàng)新”打破了傳統(tǒng)算力競賽的僵局。但算法優(yōu)勢有天花板,隨著DeepSeek的進一步發(fā)展,芯片不夠的問題還是會出現(xiàn),在全球封鎖的今天,依然需要依賴和期待國內(nèi)芯片的發(fā)展。
第二,來自美國的反擊。
DeepSeek估計會面臨與華為一樣的國際封鎖。
不管是OpenAI第一時間的蒸餾指控,還是近期持續(xù)的DDoS(Distributed Denial of Service,分布式阻斷服務(wù))攻擊,以及各級美國政府部門強調(diào)來自DeepSeek的威脅,都表明來自美國的反擊會持續(xù)加劇。
第三,人才面臨國內(nèi)大廠和硅谷大廠挖角。
DeepSeek出名之后,整個團隊都會成為其他競爭對手高薪“挖掘”的目標。DeepSeek團隊不足150人,如果最頂級的人才都被挖走了,影響還是很大的。接下來人才的走與留,是DeepSeek需要處理好的問題。好在DeepSeek現(xiàn)在太過出名,對于有理想、有技術(shù)的人才是具有吸引力的。
六、如何安裝使用DeepSeek?
你可以通過兩種方式訪問DeepSeek:直接訪問電腦版(官網(wǎng))或者在手機應(yīng)用商店搜索“DeepSeek”下載安裝。
DeepSeek的界面與一般大模型相差不大,重點在其“深度思考”和“聯(lián)網(wǎng)搜索”功能。選擇“深度思考”,大模型在回答之前會自行推理問題的方方面面,使得結(jié)果更加可靠和準確;
選擇“聯(lián)網(wǎng)功能”,大模型會先全網(wǎng)搜索再回答,從而可以獲得最新的信息。
七、如何正確提問DeepSeek?
網(wǎng)絡(luò)上盛傳許多DeepSeek的使用技巧,比如“直接提需求,而不是給指令”,或者“賽博人格分裂”“陰陽怪氣模式”,甚至還有人根據(jù)每一個行業(yè)給出一套提問詞。這些方法真的有效嗎?
提問DeepSeek可以直接給指令,比如當我主動提問DeepSeek:該如何給指令?以下是它的回答(如圖1所示):

總結(jié)這些要點,我們不難得出:要想讓DeepSeek更好地回答,關(guān)鍵在于清晰地說出你的需求。你越清楚自己想要什么,DeepSeek就越能更好地幫助到你。
明白了用好DeepSeek的關(guān)鍵是需求清晰,那么如何才能做到需求清晰呢?除了自己頭腦清晰、文字表達準確,你還可以做這兩件事:第一步,進行元提問,讓DeepSeek自己給出需求清晰的提示詞。
第二步,告訴DeepSeek,你輸出的結(jié)果是給誰看的。比如添加上“說人話”“給小孩聽的”“給領(lǐng)導匯報”等。
比如同樣問DeepSeek:“什么是通貨膨脹?”,我分別加上“說人話”“學術(shù)研究”“小孩聽得懂”3種要求,它給出的答案就各不相同。
總的來說,你想要更好地用好DeepSeek,只需做到:需求清晰+讀者身份清晰,這樣你就大概率能獲得滿意的答案。
八、DeepSeek如何本地部署?
DeepSeek突然火爆,加之來自海外的DDos攻擊,導致它算力不足。我們最近在使用時,還會經(jīng)常遇到模型崩潰的問題。于是許多人掀 起了一場“本地化自救”—在本地部署DeepSeek。有的人在本地部署之后,期望使用效果可以像官網(wǎng)一樣,卻發(fā)現(xiàn)效果相差很遠,為什么會這樣?
因為本地部署的開源模型,參數(shù)規(guī)模集中在1.5B~7B區(qū)間(例如DeepSeek-R1-1.5B、DeepSeek-R1-7B),而云端服務(wù)實際調(diào)用的是千億級參數(shù)模型。它們的推理能力、長文生成能力都不是一個量級。不僅如此,受限于本地顯存,本地運行大模型會非常慢,使用效率也大打折扣。
在本地部署大模型,最大的意義是讓你學會使用最新開源工具,發(fā)現(xiàn)別人還未曾發(fā)現(xiàn)的商機。在開源風潮的趨勢下,且有AI強大助力的情況下,本地部署開源項目、體驗最新科技發(fā)展越來越簡單,也越來越重要。你可以借此機會學習起來。
部署DeepSeek總共分4步:
第一步,安裝Ollama。Ollama是一個大模型運行工具,它制定了開源大模型的下載和運行規(guī)范,用它能下載運行各大開源大模型,DeepSeek也不例外。訪問Ollama官網(wǎng)(https://ollama.com/)下載即可。
第二步,下載DeepSeek。先在Ollama界面搜索DeepSeek-R1,選擇適合硬件配置的版本(如1.5B或7B),復(fù)制命令。
第三步,打開本地命令行窗口,執(zhí)行復(fù)制到的命令,它就會自動下載DeepSeek(如果本地已經(jīng)下載過,它就會直接運行),此后每次在本地運行大模型也是同樣的步驟。
第四步,安裝Chatbox AI。這一步可自行選擇,如果你覺得不習慣命令行窗口想要對話窗口,也可以通過Chatbox AI官網(wǎng)(https://chatboxai.app/zh)下載Chatbox AI,它提供了各種大模型的對話窗口。
九、DeepSeek崩潰了怎么辦?
上節(jié)提到DeepSeek崩潰了不適合本地部署,真正的解決方法是選擇線上平替。因為DeepSeek是開源模型,有許多有實力的廠家已經(jīng)將DeepSeek-R1 671B部署上了,你直接用就可以,其中許多還是免費的。
總共有10種方法,分別是:硅基流動、秘塔AI搜索、英偉達、國家超算互聯(lián)網(wǎng)、perplexity AI、poe、Groq、Lambda.chat、Cursor、官方API。
如果你在國內(nèi),建議使用硅基流動或者秘塔AI;如果你在海外,建議使用perplexity AI或Lambda.chat。
十、普通人如何抓住DeepSeek機遇?
AI革命的本質(zhì),是讓每個人多了一個“數(shù)字分身”。DeepSeek的價值,不在于替代人類思考,而在于成為普通人的“能力杠桿”。
我們每一個人,在遇到歷史級別的機遇時,要躬身入局。
要學會站在技術(shù)擴散的前排。不必看懂代碼,但要看懂趨勢:當朋友圈開始刷屏AI產(chǎn)品時,立即注冊試用;時刻關(guān)注技術(shù)突破的“實用半徑”,比如新發(fā)布的API(應(yīng)用程序編程接口)能優(yōu)化客服、自動化報表,可先動手測試。
要學會和AI“說話”。開始在日常生活中把問題丟給AI,開始學會用AI聽得懂(AI提示詞)的方式與它交流。
要學會成為行業(yè)接線員。把你的專業(yè)經(jīng)驗和DeepSeek結(jié)合起來,這或許會創(chuàng)造新的商業(yè)模式。比如房產(chǎn)中介用AI生成個性化房源視頻,轉(zhuǎn)化率翻倍。不用擔心你比別人晚,即使你今天才開始使用DeepSeek,你仍然領(lǐng)先于99%的人。DeepSeek才剛開始,它正等著各行各業(yè)的人才,去把它應(yīng)用到每一片土地上。
正所謂,AI消滅的是“信息中間商”,獎勵的是“價值連接者”。當技術(shù)民主化的浪潮襲來,普通人真正的護城河是:比算法更懂人間煙火,比機器更會解決問題。
評論
-
最新最熱
行業(yè)資訊 -
訂閱欄目
效率閱讀 -
音頻新聞
通勤最愛




