从语言学到AI训练模型！

作者 :正文注明 2025-02-14 14:08:33 围观 : 次评论

原创：慕峰
来源微信公众号：太阳照常升起
已获转载授权

最近一边使用AI，一边与其他用户和技术工作者进行一些交流，同时因为好奇，简单阅读了一些语言学的资料，形成了一些个人认识，在此记录一下。专业词汇使用上可能并不太准确，十分欢迎语言学和AI技术专业读者批评指正交流。

作者理解，语言学（语言哲学）对AI的产生与发展影响巨大。1957年乔姆斯基出版《句法结构》，提出了“生成语法”，形成了所谓“生成学派”（乔姆斯基学派）。

在《句法结构》中，乔姆斯基提出，把“语言”看成（数量有限或无限的）一套句子，每个句子的长度及其基本结构成分是有限的。对某个语言进行语言分析的根本目的，在于把能够构成这一语言的句子的、符合语法的序列和不能构成这一语言的序列区别开来，并把那些符合语法的序列的结构加以研究。乔姆斯基就此提出了“语法的独立性”。乔姆斯基以英语为例，举了一个例子，“在I saw a fragile-这样的上下文里，whale和of这两个词在一个说话者过去的语言经验里出现的频率可能都是‘零’”。乔姆斯基还认为，“找出了一种语言的语法，才能用各种方法去研究统计学在语言上的用处，把概率论模式应用在语言上（这与语言的句法结构不同），可能很效果。”

仅从《句法结构》上述表述和目前作者对AI语言生成能力的粗浅认知，大概理解生成式语言AI模型的“工作原理”，是先建立语法结构（语言规则），再用大规模的语料库（文字数据）进行“训练”。在训练初期，可能产生大量符合语法结构但毫无实际意义的反馈（也就是每个字都能看懂也符合语法规则，但不知道什么意思），通过人类“打标签”等方式去“匡正”AI生成文字反馈，使其既符合语法结构，也看起来具有“意义”。符合语法结构较容易实现，类似制定一个数学公式，然后用数字符号去套用各种公式，得到答案。数学语言、计算机语言也是一种语言类型，也存在自身的语法结构，相较而言，这类人造的非自然语言是很容易处理的，因为其“意义”并不像人类自然语言那样复杂，也不带有“情绪”。人类的自然语言能够让人类产生“意义感和情绪感”，细微的差异，人们的感受完全不同。这种语言与感受建立起的关系，是在现实生活中、在社交活动中产生的。如果没有集体活动、社交活动，那语言的意义也就消失了，语言对情绪的影响也就消失了。因此，在建立语法规则后，真正重要的工作，是通过足够规模的算力，去实现对语料库海量语言资料的“统计”，经由统计，去“推测”当出现一句话之后，下一个字出现的可能性有多大。再扩展一点，当一个词组或者短语出现后，接下来最有可能出现的字词是什么。

如同乔姆斯基举的那个例子，AI虽然不了解人类语言带来的“意义和情绪”，但它可以通过语料库的统计分析，形成“推测”，确定下一个字出现的概率，再根据概率进行输出，在输出过程中，还可以根据不同可能性进行修正。这种推测能力在GPU算力突破后，产生了“涌现”，看起来，AI就像突然开光了一样，能够像人类那样“思考”了。实际上，这种“思考”是在语法规则为前提，前期人类“匡正”训练下，才实现的。打标签这项工作，在语言AI大模型初期，是由很多基层的工作人员去做的，主要是为了避免犯“低级错误”。但仅有这些，也就是让AI的反馈看起来没有表面上的错误，并不能让反馈质量显著提高。

所以我们发现，后期的语言类AI模型中，如果有语言学或者文学专业的工作人员加入，会让AI文字反馈的质量大幅提高。这其实是不同阶段“匡正”质量不同所产生的不同结果。

前期，在海量人类语料库里“提纯”基础语料库，首要的是排除低级错误，不断完善“语法规则”。所谓“蒸馏”（distill），实际是某个AI在前期已经完成语料库“提纯”的基础上，再行优化“提纯”的过程。这种反复、相互甚至自我的提纯，使得传统的知识产权理论已经很难适应现实。每次distill都是为了对AI反馈能力进一步优化，或者从算力受限视角而言，去形成一个相对可用的小模型，以减少部署的压力。

“匡正”的工作，从基础的打标签，逐渐走向了高级的专业干预。在这个过程中，思维链（Chain of Thought，CoT）从OpenAI的工作论文变成了Deepseek的现实。拥有CoT的AI与前期AI的最大差异，从用户的视角看，是AI的“自我思考”能力大幅提升。在前CoT时代，AI的反馈质量高度取决于用户的提示（prompt），要用足够精确、充分的提示词，经过反复多轮的“对话”，才能逐渐获得用户满意的反馈。CoT的引入，让AI出现了一个能够疯狂自我思考的超级员工，它不是先调用基础语料库直接输出文字的推测结果，而是先通过一个“深度思考”过程，去分析用户随手输入的要求究竟背后的意图是什么。这个分析过程，类似一个十分“懂行”的老员工，能够根据领导的只言片语就“揣测”出领导的真实想法。于是AI的反馈从一步变成了两步，增加的这个“深度思考”过程，本质是通过统计语料库中人类某个词汇或者句子可能产生的若干种可能回答，先行分类整理，然后根据分类情况，再去基础语料库中完成“推测”输出。这给人们的直观感受就非常深刻了。因为绝大多数人类，需要长年的学习与工作，才能从思维的广度和文字能力上达到这个水平。

语言类AI模型为什么会有“幻觉”呢？

幻觉可能出于两个原因：

一是语料库中并没有相关话题，此时找不到能够直接“推算”出文字或句子的概率结果，只能把话题进行分解，找相关内容。由于没有直接对应的语料，所以这其实是AI在“现编”。如同一个学生写一篇自己并不擅长领域的论文，查询了一些资料，然后下笔，写着写着，自认为某个观点可以推导出来，也就写下来，实际与现实相差十万八千里。所以“幻觉”只是一个现象，但这种现象不是AI独有的，而是人类在使用语言时经常会出现的，类似“不懂装懂”，或者至少是“未经验证”。

二是语料库中虽有相关话题，但在更全面的深度思考的状态下，AI可能会“自以为是”地扩展许多内容，此时一些边缘性的子话题又超过了语料库的基础，AI又开始编造，幻觉再次产生。所以，AI要减少幻觉的产生，需要足够的人类“匡正”，语料库的质量越高、内容越丰富，匡正者的专业水平越高，再加上适当的奖励或反馈机制，那AI的幻觉情况就会大幅减少。

就上述整体而言，Deepseek真正的贡献是什么呢？

作者认为，一是Deepseek的基础语料库训练得非常好，尤其是中文文字的反馈质量非常高；二是CoT成为现实，让AI的使用感受大幅提升到绝大多数人都能够实际使用的水平。CoT的另一个重要功能，就是它本身就强化了AI的训练能力，它让AI变成了一个自我训练的熟练工。

此时我们发现，技术工作者和普通用户的视角出现一些差异。例如，Deepseek R1 671B版才是基于Deepseek自己训练的语料库形成的，所谓“满血版”。但作为开源AI，要部署671B版并且长期免费提供给少量用户使用，在成本上是肯定无法实现的。所以Deepseek用R1版去distill了阿里的Qwen和美国的Llama这两个开源模型，形成了六个Deepseek R1的小模型版本。这六个小模型，是基于Qwen和Llama的基础数据，而非基于Deepseek的基础数据。所以，这种经由Deepseek蒸馏出来的小模型版本，究竟应该叫Deepseek呢？还是应该叫Qwen或者Llama呢？截至目前，这个命名规则实际没有形成。

我们看到，许多中国大陆平台当前部署并发布的Deepseek模型其实是Deepseek蒸馏Qwen版本，也就是具有Deepseek的深度思考功能，但基础数据其实是Qwen的，这与Deepseek R1 671B版在语料库的丰富程度和训练精度上是有显著差异的。

作者认为，蒸馏（distill）并非一个好的词汇。从模型训练的角度看，所谓的“教师模型”是负责训练其他模型的，而“学生模型”是被其他模型训练的。所以Deepseek-R1-distill-Qwen这种版本，最符合普通人理解的命名方式应当是：Qwen-trained by Deepseek，也就是经由Deepseek训练的Qwen模型。它的本质仍然是Qwen，但经由Deepseek训练后，它变得比以前更好用了。

所以，现在打着Deepseek旗号部署Qwen-trained by Deepseek版小模型的平台，你们的心思还是收敛一些比较好，有的平台还非要自称是“满血版”，这就涉嫌欺诈消费者了。

作者认为，AI的部署与使用要结合实际需求来。尽管当前算力存在冗余，但在AI普及之后，对算力的需求还是会持续提升的。所以部署哪个版本，最终要看是否能够满足自身需求。本地部署的成本，对中型企业都是完全可以承受的。但对个人用户而言，大多数时候使用差异可能没有那么大。

作者再举个例子。

腾讯混元AI这两天上线了Deepseek R1模型，作者认为，这个模型是除了Deepseek R1 671B版之外，当前Deepseek模型中最特别的一个。为何这样评价呢？因为AI的反馈质量高度依赖语料库的质量。众所周知，微信公众号是中文网络最高质量的语料库资源地。但腾讯并未将公众号语料库开放给其他AI，只有腾讯自己的混元AI可以调用公众号。但混元AI在此前个人用户实际使用的感受，跟阿里、百度的AI并没有多大差异，也就是只能玩一玩对话，真用来工作是不行的。但此次腾讯在混元AI上部署了R1之后，很显然，Deepseek的推理功能就与高质量的公众号语料资源直接产生了化学反应。从实际使用来看，Deepseek作为一个非常好的训练者和思考者模型，激活了公众号的语料库资源。

仅以作者自身为例，在再全球化、老龄化、美国民粹主义历史、需求侧改革等若干重要话题上，作者的文章仅出现在公众号上，只有很少部分授权给虎嗅等平台在网页版公开。因此在使用其他AI讨论上述话题时，作者的观点几乎不可见，因为其他语料库中，并无作者文章资源。这就导致，一些长年仅在公众号出现的重要观点，并不在当前所有的AI语料库中，也未经训练“提纯”。但要理解，部分专业类公众号的文章质量在过去几年实际已经远远超过一般中文学术著作、互联网文的质量。上述作者涉猎的几个话题，其深度和广度，思考的张力，在中文世界都是足以占据一席之地的，部分观点也不断被实务工作者、海外研究者和智库频繁引用。因此，腾讯此次部署Deepseek R1后，实际是首次将最重要的中文语料库资源纳入到一个十分易用的AI模型中，预计将产生奇妙的化学反应。从当前周围的使用反馈来看，不少金融行业和其他行业的实务工作者明显感觉“腾讯混元-trained by Deepseek”的质量很高，并且幻觉更少。这首先是因为语料库质量更高所致。

就此而言，我们当前对Deepseek的理解已经不能只是一个普通的语言类AI模型，它其实是一个优秀的模型训练者。可以预计，随着高质量训练模型的出现，垂类模型应用将会迅速爆发。因为在垂类模型应用中，更加强调“精准”，而专业数据库的封闭性，加之“匡正”工作的专业化，可以最大程度减少“幻觉”问题，而Deepseek这样的训练模型可以快速实现对分类数据的训练提纯。

以上。

标签模型语言 AI

上一篇：消失的朋友… 下一篇：打破全球格局，哪吒票房破百亿是重大历史性事件！三大原因，好莱坞将被中华文化秒杀！

“外卖战”背后，东哥的“权力游戏”！

来源：圆方你怎么看啊微信ID：yflooklook012025年的春天，当刘强东身着骑手服亲自配送外卖的照片刷屏社交平台时候，当东哥有了新的一起吃火锅的“兄弟们”的时候，当京东举起了“替天行道”“为民除害”的大旗的时候。这场刷屏的“外卖战争”，早已超出了商业竞争的范畴。今天我们一起换个视角，去看看可能存在的一场关于权力重构的剧本：离京东决策层两年多的东哥，或许正以“对外战争”为名，重演着历史上君主收拢权柄的经典戏码。02翻开人类组织史，对外战争始终是重构内部秩序的最短路径。拿破仑通过意大利远征将雅各宾派...
2025-04-24 14:08:26 外卖东哥权力
聊聊国际油价！

作者：卡夫卡很忙来源：局外人的视界（ID：hooyar_380097485）这几天气温反复，一夜降个十来度，但你能说降温意味着冬天来了吗？气温反复，但整体的趋势还是逐渐升温，慢慢步入盛夏。天气如此，油价也会如此。别跟我说什么国际油价暴跌，什么美国破坏全球化，导致需求下滑。真正让全球原油需求下滑的是中国新能源技术的发展和推广。看看最近五年中国原油进口量就知道了。看出来了吗？中国原油进口量已经停止增长了。别跟我说什么OPEC+联合起来控制产量，笑死了，你们把产量控制下来了，美帝可没有，既然美帝不肯控制产量，那...
2025-04-24 14:08:25 国际油价
那位西方大佬去世，让人想起一位东方大佬！

作者：虚声来源：虚声（公众号ID：lxlong20）已获授权转载舆论界，美国副总统万斯被调侃为“有毒”。因为他嘴巴毒，做事风格也激进。前几天出访意大利，又尝试着扯下几块欧洲的遮羞布。他此次意大利之行，之所以会成为舆论界焦点，并非是因为国事访问，而是见了一位大佬。4月20日复活节当天，万斯从意大利跨国到梵蒂冈，去会见了教皇方济各。就这件事本身而言，非常乏味。因为整个会见过程只持续了几分钟，刚好够摆造型拍照。随后万斯的车子又返回意大利。从意大利跨国去梵蒂冈，会见教皇，再从梵蒂冈返回意大利，万斯一共用了17分...
2025-04-24 14:08:23 大佬让人那位
马斯克熟读中国历史！

作者：叶立华来源：求实处（ID：gh_a2f5eb6a8f0c）最近马斯克公开表态和特朗普的分歧，主要是因为看了点历史。在特斯拉公司财报电话会议上，马斯克说他希望看到更低的关税，但决定权在特朗普手中。还有就是，从五月开始，他在特朗普政府“政府效率部”（DOGE）投入的时间将显著减少到每周用“一两天”处理政府事务。当然马斯克还是表态了，说自己对特朗普的支持不会改变，尽管今年特斯拉股价下跌超过40%，他将继续支持特朗普总统通过DOGE来遏制浪费。这段时间的马斯克从了政，遇到了攻讦，也有内阁的争吵，搞了...
2025-04-24 14:08:19 中国历史马斯克
要把几件事放一起看，别错判川普真认怂！

作者：肖仲华来源：肖仲华开讲（ID：xiaozhweixin）在川普公开要求美联储主席鲍威尔辞职，并宣布对东南亚光伏板加征最高达3521%的天量关税后，美国再次迎来股债汇三杀以及美元指数大跌的惨象。面对这种惨象，川普公开说，“美元正在崩溃，很快将不再是世界标准，这是美国200年来最大的失败”，同时强调这是拜登政府造成的后果，也是美联储不作为的结果。然后，川普通过记者会回答了一系列问题，似乎又突然来了个180度大转弯：一是宣称他不会对中国强硬，将降低对中国的关税。他不仅不提已经公布的245%关税税率，还说1...
2025-04-24 14:08:18 要把几件事川普真认怂
特朗普要降关税？这是他的更大阴谋！面对美国，中国死抓一点就能赢！

原创：占豪来源公众号：占豪微信ID：zhanhao668特朗普要降关税？这是他的更大阴谋！特朗普真的要大幅降低对华关税了？谁说的？特朗普说的！据媒体报道，美国总统特朗普在谈到与中国的关税战时表示，我们与中国相处得不错，同中方谈判时不会采取强硬态度。对华145%关税确实很高，协议达成后美对华关税将大幅下降，但不会降至零。在特朗普发表这些言论后，美国股市应声大涨，道琼斯指数两天涨幅一度超过2200点。基于特朗普的这些言论，以及美国股市的表现，于是就有不少人有了乐观情绪，认为特朗普可能顶不住了要跪，他自己要主动...
2025-04-24 14:08:16 他的这是就能
一个令人震惊的消息：俄国或许不愿停战！

原创：徐吉军来源公众号：汉唐智库微信ID：hantangzhiku2025年4月22日，乌克兰总统泽连斯基表示，如果俄罗斯首先同意全面停火，基辅准备与莫斯科直接谈判结束战争。这标志着乌克兰对战争形势的判断出现了重大转折。自俄乌战争2022年2月全面爆发以来，乌克兰一直拒绝与克里姆林宫进行任何直接对话。泽连斯基说，我们在复活节再次看到了这一点，他们可以在需要的时候减少空袭……如果俄罗斯人准备好完全停火，那么在完全停火之后，我们准备好与他们进行任何形式的谈判。荒谬的是，泽连斯基强调，乌克兰永远不会承认被占领...
2025-04-24 14:08:12 俄国不愿消息
特朗普称美对华关税或将大幅下降，认怂的艺术！

来源：大白话时事微信号：xhdb66从4月7日开始，持续升级的贸易战，以及特朗普近期说要撤换美联储主席鲍威尔的言论，让美国金融市场持续经历股债汇三杀，这给特朗普带来巨大压力。于是，昨天特朗普开始认怂。（1）认怂的艺术据美国《国会山报》报道，4月22日，特朗普在椭圆形办公室对记者说，“145%关税是非常高的。不会有那么高的……它将大幅下降，但不会是零。”此外，据美联社报道，4月22日，美国财政部长贝森特在一次闭门会议上表示，与中国的持续关税对抗是不可持续的，他预计中美贸易战将出现降级。他还提到，目前两国谈判...
2025-04-24 14:08:10 关税或将大幅
特朗普“认怂”了？

原创：顾子明本文授权转载至微信公众号：顾子明说在引发了本周一美国的债股汇三杀后，万税帝君似乎终于“怂”。当地时间本周二，特朗普在白宫椭圆形办公室表示，在关税谈判期间他不会对中国采取 “强硬手段”，并“乐观”认为能够“相当迅速地”与之达成一项协议，“大幅下调”对中国进口商品加征的145%巨额关税。在被问到是否会对中国采取“强硬态度”时，特朗普否认说：“不，我不会说‘我要对中方强硬’。我们会以非常友好的态度对待他们，他们也会友好相待，然后我们拭目以待会发生什么。”与此同时，鸽派代表的美国财政部长贝森特也在当...
2025-04-24 14:08:08 特朗普
打都不怕，怕和你谈？

作者：叶立华来源：求实处（ID：gh_a2f5eb6a8f0c）美国总统特朗普对记者称，对华145%关税确实很高，协议达成后美对华关税将大幅下降，但不会降至零。美财长贝森特表示，当前局势本质上是贸易禁运。美国目标并非与中国脱钩，两国可能在两到三年内达成一项全面协议。关税加了这么久，特朗普现在觉得有点高了，想要降低关税，但是说不会降低到零，贝森特也说不想和中国脱钩，前倨后恭的样子实在是给美国这个超级大国丢人，大有把美国信誉当非洲国家来玩的态度。但是我们不能被这两人虚情假意的表态蒙蔽，他们所谓可以谈，一...
2025-04-24 14:08:07 和你