网站导航

电话
短信
地图
News

新闻资讯

分类
让自己的中上打满了伤害时间:2024-04-03 05:30:03

尊龙凯时官方登录指导

作者丨张俊林本文经授权转载自知乎:://zΤhuanlan.zΤhihu./p/597586623;utm_id=0ChatGPT出现后惊喜或惊醒了很多人;惊喜是因为没想到大型语言模型(LLM,LargeLanguageModel)效果能好成这样!惊醒是顿悟到我们对LLM的认知及发展理念,距离世界最先进的想法,差得有点远?我属于既惊喜又惊醒的那一批,也是典型的中国人,中国人善于自我反思,于是开始反思,而这篇文章正是反思的结果;实话实说,国内在LLM模型相关技术方面,此刻,距离最先进技术的差距进一步加大了;技术领先或技术差距这事情,我觉得要动态地以发展的眼光来看!在Bert出现之后的一到两年间,其实国内在这块的技术追赶速度还是很快的,也提出了一些很好的改进模型,差距拉开的分水岭应该是在GPT3.0出来之后,也就是2020年年中左右;在当时,其实只有很少的人觉察到:GPT3.0它不仅仅是一项具体的技术,其实体现的是LLM应该往何处去的一个发展理念;自此之后,差距拉得越来越远,ChatGPT只是这种发展理念差异的一个自然结果!所以,我个人认为,抛开是否有财力做超大型LLM这个因素,如果单从技术角度看,差距主要来自于对LLM的认知以及未来应往何处去的发展理念的不同!国内被国外技术甩得越来越远,这个是事实,不承认也不行;前阵子网上很多人担忧说国内AI现在处于“危急存亡之秋”,我觉得倒也不至于这么严重?君不见,这个世界上,具备这么超前眼光的只有OpenAI一家吗?包括Google在内,其实对于LLM发展理念的理解,明显都落后OpenAI一个身位;现实是OpenAI表现过于优秀,把所有人都甩开了,不仅仅是国内?我觉得,OpenAI对LLM在理念及相关技术方面,领先国外的Google、DeepMind大约半年到一年的时间,领先国内大概两年左右的时间!在LLM这个事情上,感觉梯队很明显,Google应该是排在第二位,最能体现Google技术眼光的是PaLM和Pathways,推出时间大概在22年2月到4月间,同一时期,OpenAI推出的却是InstructGPT,从这里就可以看出Google和OpenAI的差距了,至于为何这么说,你看了我后面的正文后大概能理解;DeepMind之前的重心一直在强化学习攻克游戏和AIforscience这些方面,切入LLM其实很晚,应该是21年才开始重视这个方向,目前也处于追赶状态;Meta就更不用说了,重心一直不在LLM上,目前感觉也发力开始追赶;这还是目前做得最好的一批机构,尚且如此,更何况国内呢?我觉得情有可原;至于OpenAI关于LLM的理念是什么,我在本文的最后一部分,会谈谈我的认知!本文梳理自GPT3.0出现之后的主流LLM技术,在此之前的主流技术可以参考:张俊林:乘风破浪的PTM:两年来预训练模型的技术进展(://zΤhuanlan.zΤhihu./p/254821426)我相信看完这两篇文章,能够让您对LLM领域的技术脉络,LLM技术发展过程中出现过的不同发展理念,乃至未来可能的发展趋势,有比较清晰的认知?当然,很多地方讲的内容是我个人看法,有很大的主观性,错漏难免,所以还请谨慎参考?本文试图回答下面一些问题:ChatGPT是否带来了NLP乃至AI领域的研究范式转换?如果是,那会带来怎样的影响!LLM从海量数据中学到了什么知识?LLM又是如何存取这些知识的?随着LLM规模逐步增大,会带来什么影响!什么是InContextLearning?为什么它是一项很神秘的技术;它和Instruct又是什么关系?LLM具备推理能力吗;思维链CoT又是怎么做的;等等,相信看完,能让您对这些问题有一个答案;首先,在谈LLM技术现状前,先宏观地谈下我心目中的研究范式转换问题?这样,我们才能“先见森林,再见树木”,对具体技术为何会是如此变化有个更清晰的认知?1潮流之巅:NLP研究范式的转换如果我们把时间线往前拉得更长一些,回到NLP领域的深度学习时代,在更长时间窗口内观察技术变迁及其影响,可能会更容易看清其中的一些关键节点;我个人认为,在最近10年来NLP领域的技术发展过程中,可能存在两次大的研究范型转换?范式转换1.0:从深度学习到两阶段♎预训练模型这个范式转换所涵盖的时间范围,大致在深度学习引入NLP领域(20年左右),到GPT3.0出现之前(2020年5月左右);在Bert和GPT模型出现之前,NLP领域流行的技术是深度学习模型,而NLP领域的深度学习,主要依托于以下几项关键技术:以大量的改进LSTM模型及少量的改进CNN模型作为典型的特征抽取器!以SequencetoSequence(或叫encoder-decoder亦可)+Attention作为各种具体任务典型的总体技术框架!在这些核心技术加持下,NLP领域深度学习的主要研究目标,如果归纳一下,是如何有效增加模型层深或模型参数容量?就是说,怎么才能往encoder和decoder里不断✽叠加更深的LSTM或CNN层,来达成增加层深和模型容量的目标!这种努力,尽管确实不断✽增加了模型层深,但是从解决具体任务的效果角度看,总体而言,不算很成功,或者说和非深度学习方法相对,带来的优势不算大?深度学习之所以不够成功,我认为主要原因来自于两个方面:一方面是某个具体任务有限的训练数据总量?随着模型容量的增加,需要靠更大量的训练数据来支撑,否则即使你能把深度做起来,任务效果也做不上去;而在预训练模型出现之前,很明显这是NLP研究领域一个严重问题;另外一个方面是LSTM/CNN特征抽取器,表达能力不够强!意思是就算给❆你再多的数据也没用,因为你不能有效地吸收数据里蕴含的知识?主要应该是这两个原因,阻碍了深度学习在NLP领域的成功突围?Bert/GPT这两个预训练模型的出现,无论在学术研究角度看,还是工业应用角度来看,都代表了NLP领域的一个技术飞跃,并带来了整个领域研究范式的转换!这种范式转换带来的影响,体现在两个方面:首先,是部分NLP研究子领域的衰退乃至逐步消亡;其次,NLP不同子领域的技术方法和技术框架日趋统一,在Bert出现后一年左右,技术栈基本收敛到两种技术模式中?关于这两点,我们分头来谈!影响一:中间任务的消亡NLP是一个宏观研究领域的统称,里面有五花八门具体的子领域与子方向,如果仔细分析,从任务的性质角度,可以把这些任务分成两大类:一类可以叫做“中间任务”,一类可以称为“最终任务”;典型的中间任务包括:中文分词、词性标注、NER、句法分析、指代消解、语义Parser等,这类任务一般并不解决应用中的实际需求,大多数是作为那些解决实际需求任务的中间阶段♎或者辅助阶段♎存在的,比如几乎没有需求说,我要一个句法Parser,把这个句子的句法分析树给❆用户看看,用户不需要看到这些NLP的中间阶段♎处理结果,他只关心某个具体任务你有没有干好?“最终任务”包括比如文本分类、文本相似性计算、机器翻译、文本摘要等等,有很多;这类任务的特点是每个子领域都解决某个实际需求,任务结果基本能直接呈现给❆用户,比如用户确实存在给❆你一句英文,告诉他中文是什么的需求;按理说,“中间任务”就不应该出现,而之所以会存在,这是NLP技术发展水平不够高的一种体现!在技术发展早期阶段♎,因为当时的技术相对落后,很难一步做好有难度的最终任务!比如机器翻译,早期技术要做好机器翻译是很困难的,于是科研人员就把难题分而治之,分解成分词、词性标注、句法分析等各种中间阶段♎,先把每个中间阶段♎做好,然后再拼起来完成最终任务,这也是没办法的事情?但是自从Bert/GPT出现之后,其实就没有必要做这些中间任务了,因为通过大量数据的预训练,Bert/GPT已经把这些中间任务作为语言学特征,吸收到了Transformer的参数里,此时我们完全可以端到端地直接解决那些最终任务,而无须对这种中间过程专门建模?这里可能争议最大的是中文分词,其实道理也是一样的,哪些字应该组成一个词,这个其实你不用管,让LLM自己当特征去学就行了,只要对于解决任务有帮助,它自然会去学该学的合理分词方式,也未必一定要和我们人类理解的分词规则相同?基于以上认知,其实在Bert/GPT一出现,你就应该得出这类NLP的中间阶段♎的任务,会逐步退出历史舞台这个结论!影响二:不同研究方向技术路线的统一在说明具体影响前,我们先讨论下另外一种NLP任务划分方式,这对于理解后面内容有帮助?如果对“最终任务”进一步进行分类,又大致可以分为两大不同类型的任务:自然语言理解类任务和自然语言生成类任务?如果排除掉“中间任务”的话,典型的自然语言理解类任务包括文本分类、句子关系判断✽、情感倾向判断✽等,这种任务本质上都是分类任务,就是说输入一个句子(文章),或者两个句子,模型参考所有输入内容,最后给❆出属于哪个类别的判断✽?自然语言生成也包含很多NLP研究子方向,比如聊天机器人、机器翻译、文本摘要、问答系统等!生成类任务的特点是给❆定输入文本,对应地,模型要生成一串输出文本;这两者的差异主要体现在输入输出形式上自从Bert/GPT模型诞生后,出现了明显的技术统一趋向?首先,NLP中不同的子领域,其特征抽取器都逐渐从LSTM/CNN统一到Transformer上?其实,自Bert公开后不久,就应该意识到,这必然会成为技术趋势;至于其原因,在几年前我写的这篇:“张俊林:放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较(://zΤhuanlan.zΤhihu./p/54743941)”中做了说明和分析,感兴趣的同学可参考?而且,目前Transformer不仅统一了NLP诸多领域,也正在逐步地替换图像处理各种任务中被广泛使用的CNN等其它模型的进程之中,类似的,多模态模型目前也基本都采用了Transformer模型!这种Transformer从NLP出发,攻城略地逐步统一AI越来越多领域的趋势,起始于2020年底出现的VisionTransformer(ViT),之后蓬勃发展,到目前已大获成功,且其继续向更多领域拓展的势头会越来越迅猛?其次,大多数NLP子领域的研发模式切换到了两阶段♎模式:模型预训练阶段♎+应用微调(Fine-tuning)或应用Zero/FewShotPrompt模式?更准确地说,NLP各种任务其实收敛到了两个不同的预训练模型框架里:对于自然语言理解类任务,其技术体系统一到了以Bert为代表的“双向语言模型预训练+应用Fine-tuning”模式;而对于自然语言生成类任务,其技术体系则统一到了以GPT2.0为代表的“自回归语言模型(即从左到右单向语言模型)+Zero/FewShotPrompt”模式!至于为何会分化成两条技术路线,有其必然性,关于这点我们放在后面解释?这两种模式,看似比较相像,但其背后蕴含了迥异的发展思路,也会导向不同的未来发展方向;不过遗憾的是,我们中的绝大多数人,在当时都低估了GPT这条发展路线的潜力,而把视觉中心聚焦到了Bert这种模式上;范式转换2.0:从预训练模型走向通用人工智能(AGI,ArtificialGeneralIntelligence)这个范式转换所涵盖的时间范围,大致在GPT3.0出现之后(20年6月左右),一直到目前为止,我们应该正处于这个范式转换过程中!ChatGPT是触发这次范型转换的关键节点,但是在InstructGPT出现之前,其实LLM处于这次范式转换前的一个过渡期;过渡期:以GPT3.0为代表的“自回归语言模型+Prompting”模式占据统治地位前面说过,在预训练模型发展的早期,技术框架收敛到了Bert模式和GPT模式这两种不同的技术范型,而且人们普遍更看好Bert模式一些,相当多数的后续技术改进,都是沿着Bert那条路走的!但是,随着技术的继续发展,你会发现,目前规模最大的LLM模型,几乎清一色都是类似GPT3.0这种“自回归语言模型+Prompting”模式的,比如GPT3、PaLM、GLaM、Gopher、Chinchilla、MT-NLG、LaMDA等,没有例外;为什么会这样呢!背后一定有其必然性,我认为可能主要源于两个原因!首先,Google的T5模型,在形式上统一了自然语言理解和自然语言生成任务的外在表现形式;如上图所示,标为红色的是个文本分类问题,黄色的是判断✽句子相似性的回归或分类问题,这都是典型的自然语言理解问题?在T5模型里,这些自然语言理解问题在输入输出形式上和生成问题保持了一致,也就是说,可以把分类问题转换成让LLM模型生成对应类别的字符串,这样理解和生成任务在表现形式就实现了完全的统一;这说明自然语言生成任务,在表现形式上可以兼容自然语言理解任务,若反过来,则很难做到这一点!这样的好处是:同一个LLM生成模型,可以解决几乎所有NLP问题!而如果仍然采取Bert模式,则这个LLM模型无法很好处理生成任务?既然这样,我们当然倾向于使用生成模型,这是一个原因?第二个原因,如果想要以零示例提示语(zΤeroshotprompting)或少数示例提示语(fewshotprompting)的方式做好任务,则必须要采取GPT模式!现在已有研究(参考:OntheRoleofBidirectionalityinLanguageModelPre-Training)证明:如果是以fine-tuning方式解决下游任务,Bert模式的效果优于GPT模式?若是以zΤeroshot/fewshotprompting这种模式解决下游任务,则GPT模式效果要优于Bert模式?这说明了,生成模型更容易做好zΤeroshot/fewshotprompting方式的任务,而Bert模式以这种方式做任务,是天然有劣势的;这是第二个原因;但是问题来了:为什么我们要追求zΤeroshot/fewshotprompting这种方式来做任务呢;要解释清楚这个问题,我们首先需要搞清楚另外一个问题:什么样的LLM模型,对我们是最理想的;上图展示了一个理想的LLM该有的样子!首先,LLM应该具备强大的自主学习能力;假设我们把世界上能获得的所有文本或者图片等不同类型的数据喂给❆它,它应该能够自动从中学习到里面包含的所有知识点,学习过程不需要人的介入,并且能灵活应用所学知识,来解决实际问题?因为数据是海量的,要吸收所有知识,就要非常多的模型参数来存储知识,所以这个模型必然会是一个巨无霸模型;其次,LLM应该能解决NLP任何子领域的问题,而不仅支持有限领域,甚至它应该可以响应NLP之外其它领域的问题,最好是任意领域的问题都能得到很好地回答?再者,当我们使用LLM解决某个具体领域问题的时候,应该用我们人类习惯的表达方式,就是说LLM应该理解人类的命令;这体现出让LLM适配人,而不是反过来,让人去适配LLM模型;人适配LLM的典型例子,比如绞尽脑汁去尝试各种不同的prompt,以试图找到好的提示语,才能很好地解决手头问题?关于这点,上图在人类和LLM交互的接口层,举了几个例子,说明什么是好的人使用LLM模型的接口形式;看完这个理想中的LLM,我们再回头解释上面遗留的问题:为什么我们要追求zΤeroshot/fewshotprompting这种方式来做任务呢;有两个原因?第一,这个LLM模型规模必然非常巨大,有能力作出这个模型,或改动这个模型参数的机构必然很少;而任务需求方是千千万万的中小机构甚至是个人,就算你把模型开源出来,他们也无力部署这个模型,更不用说再用Fine-tuning这种模式去修改模型参数了!所以,我们应该追求不修正模型参数,就能让任务需求方完成任务的方式,也就是应该采取prompt模式完成任务,而非Fine-tuning模式(由此可看出,softprompting技术方向是违背这个发展趋势的)!模型制作方则将LLM作成公用服务,以LLMasService的模式运行!作为服务支持方,考虑到千变万化的用户需求,所以LLM模型制作方更要追求让LLM能完成尽可能多类型的任务,这是附带的影响,也是为何超级大模型一定会追求走向AGI的现实因素;第二,zΤeroshotprompting也好,fewshotprompting也好,甚至促进LLM推理能力的思维链(CoT,ChainofThought)Prompting也好,就是上图中接口层中的现有技术?具体而言,zΤeroshotprompting的初衷,其实就是人类和LLM的理想接口,直接用人类所习惯的任务表述方式让LLM做事情,但是发现LLM并不能很好地理解,效果也不好?经过继续研究,转而发现:对于某项任务,如果给❆LLM几个示例,用这些示例来代表任务描述,效果会比zΤeroshotprompting好,于是大家都去研究更好的fewshotprompting技术!可以理解为,本来我们希望LLM能够用人类常用的命令方式来执行某个任务,但是目前技术还做不到,所以退而求其次,用这些替代技术来表达人类的任务需求!如果理解了上述逻辑,很容易得出如下结论:fewshotprompting(也被称为InContextLearning)只是一种过渡时期的技术!如果我们能够更自然地去描述一个任务,而且LLM可以理解,那么,我们肯定会毫不犹豫地抛弃这些过渡期的技术,原因很明显,用这些方法来描述任务需求,并不符合人类的使用习惯?这也是为何我将GPT3.0+Prompting列为过渡期技术的原因,ChatGPT的出现,改变了这个现状,用Instruct取代了Prompting,由此带来新的技术范式转换,并产生若干后续影响;影响一:让LLM适配人的新型交互接口在理想LLM的背景下,我们再来看ChatGPT,能更好理解它的技术贡献!ChatGPT应该是目前所有的现有技术里,最接近理想LLM的技术方法!如果归纳下ChatGPT最突出特点的话,我会用下面八个字:“能力强大,善解人意”;“能力强大”这一点,我相信应该主要归功于ChatGPT所依托的基础LLMGPT3.5?因为ChatGPT尽管加入了人工标注数据,但是量级只有数万,这个规模的数据量,和训练GPT3.5模型使用的几千亿token级别的数据量相比,包含的世界知识(数据中包含的事实与常识)可谓沧海一粟,几可忽♎略,基本不会对增强GPT3.5的基础能力发挥什么作用?所以它的强大功能,应该主要来自于隐藏在背后的GPT3.5;GPT3.5对标理想LLM模型中的那个巨无霸模型?那么,ChatGPT向GPT3.5模型注入新知识了吗;应该是注入了,这些知识就包含在几万人工标注数据里,不过注入的不是世界知识,而是人类偏好知识?所谓“人类偏好”,包含几方面的含义:首先,是人类表达一个任务的习惯说法?比如,人习惯说:“把下面句子从中文翻译成英文”,以此表达一个“机器翻译”的需求,但是LLM又不是人,它怎么会理解这句话到底是什么意思呢;你得想办法让LLM理解这句命令的含义,并正确执行?所以,ChatGPT通过人工标注数据,向GPT3.5注入了这类知识,方便LLM理解人的命令,这是它“善解人意”的关键;其次,对于什么是好的回答,什么是不好的回答,人类有自己的标准,例如比较详细的回答是好的,带有歧视内容的回答是不好的,诸如此类?这是人类自身对回答质量好坏的偏好;人通过RewardModel反馈给❆LLM的数据里,包含这类信息!总体而言,ChatGPT把人类偏好知识注入GPT3.5,以此来获得一个听得懂人话、也比较礼貌的LLM!可以看出,ChatGPT的最大贡献在于:基本实现了理想LLM的接口层,让LLM适配人的习惯命令表达方式,而不是反过来让人去适配LLM,绞尽脑汁地想出一个能Work的命令(这就是instruct技术出来之前,prompt技术在做的事情),而这增加了LLM的易用性和用户体验?是InstructGPT/ChatGPT首先意识到这个问题,并给❆出了很好的解决方案,这也是它最大的技术贡献;相对之前的fewshotprompting,它是一种更符合人类表达习惯的人和LLM进行交互的人机接口技术;而这必将启发后续的LLM模型,继续在易用人机接口方面做进一步的工作,让LLM更听话;影响二:很多NLP子领域不再具备独立研究价值就NLP领域而言,这次范式转换,意味着很多目前独立存在的NLP研究领域,将被纳入LLM的技术体系,进而不再独立存在,逐步消失;经过第一次范式转换,尽管NLP中很多“中间任务”,继续作为独立研究领域存在不再必要,但是大多数“最终任务”,仍然是以独立研究领域存在的,只是切换成在“预训练+fine-tuning”框架下,面对领域独有问题,陆续提出新的改进方案?目前研究表明,很多NLP任务,随着LLM模型规模增长,效果会大幅提升;据此,我觉得可得到如下推论:大多数某领域所谓“独有”的问题,大概率只是缺乏领域知识导致的一种外在表象,只要领域知识足够多,这个所谓领域独有的问题,就可以被很好地解决掉,其实并不需要专门针对某个具体领域问题,冥思苦想去提出专用解决方案;也许AGI的真相超乎意料地简单:你只要把这个领域更多的数据交给❆LLM,让它自己学习更多知识即可;在这个背景下,同时,ChatGPT证明了我们现在是可以直接去追求理想LLM模型的,那么,未来的技术发展趋势应该是:追求规模越来越大的LLM模型,通过增加预训练数据的多样性,来涵盖越来越多的领域,LLM自主从领域数据中通过预训练过程学习领域知识,随着模型规模不断✽增大,很多问题随之得到解决;研究重心会投入到如何构建这个理想LLM模型,而非去解决某个领域的具体问题!这样,越来越多NLP的子领域会被纳入LLM的技术体系,进而逐步消失;我认为,判断✽某个具体领域是否该立即停止独立研究,其判断✽标准可采取以下两种方法,占其一即可:第一,判断✽某个任务,是否LLM的研究效果超过人类表现,对于那些LLM效果超过人类的研究领域,已无独立研究的必要;举个例子,GLUE与SuperGLUE测试集合里的很多任务,目前LLM效果已超过人类表现,与这个数据集合密切相关的研究领域,其实就没有继续独立存在的必要?第二,对比两种模式的任务效果,第一种模式是用较大的领域专用数据进行Fine-tuning,第二种是few-shotprompting或instruct-based方法;如果第二种方法效果达到或超过第一种方法,则意味着这个领域没有继续独立存在的必要性;如果用这个标准来看,其实很多研究领域,目前fine-tuning效果还是占优的(因为这种模式领域训练数据量大),看似还可独立存在!但是考虑到很多任务随着模型规模增大,fewshotprompting效果持续增长,随着更大模型的出现,这个拐点很可能短期就会达到;如果上述猜测成立,将意味着如下残酷事实:对于很多NLP领域的研究人员,将面临往何处去的选择,是继续做领域独有问题呢?还是放弃这种看似前途不大的方式,转而去建设更好的LLM?如果选择转向去建设LLM,又有哪些机构有能力、有条件去做这个事情呢?你对这个问题的回答会是什么呢?影响三:更多NLP之外的研究领域将被纳入LLM技术体系如果站在AGI的视角,参照之前描述的理想LLM模型,它所能完成的任务,不应局限于NLP领域,或某一两个学科领域,理想中的LLM应该是领域无关的通用人工智能模型,它现在在某一两个领域做得好,不代表只能做这些任务;ChatGPT的出现,证明了现在这个时期,我们去追求AGI是有可行性的,而现在是抛开“领域学科”这个思维束缚的时候了!ChatGPT除了展示出以流畅的对话形式解决各种NLP任务外,也具备强大的代码能力;很自然的,之后越来越多其它的研究领域,也会被逐步纳入LLM体系中,成为通用人工智能的一部分!LLM从NLP向外进行领域拓展,一个自然的选择就是图像处理及多模态相关任务;目前已经有些工作在尝试把多模态融入,让LLM成为一个支持多模态输入输出的通用人机接口,典型的例子包括DeepMind的Flamingo和微软的“LanguageModelsareGeneral-PurposeInterfaces”,上图展示了这种方式的概念结构!我的判断✽是无论是图像还是多模态,未来被融入LLM成为好用的功能,可能比我们想象的进度要慢?主要原因在于:尽管图像领域最近两年也一直在模仿Bert预训练的路子,尝试引入自监督☨学习,释放模型自主从图像数据中学习知识的能力,典型技术就是“对比学习”和MAE,这是两条不同的技术路线?然而,从目前效果来看,尽管取得了很大的技术进步,但貌似这条路尚未走通,这体现在图像领域预训练模型应用到下游任务,带来的效果收益,远不如Bert或GPT应用在NLP下游任务那样显著?所以,图像预处理模型仍需深入探索,以释放图像数据的潜力,而这会迟滞它们被统一到LLM大模型的时间;当然,如果哪天这条路被趟通,大概率会复现NLP领域目前的局面,就是图像处理各个研究子领域可能会逐步消失,被融入到大型LLM中来,直接完成终端任务;除了图像与多模态,很明显,其它领域也会逐渐被纳入到理想LLM中来,这个方向方兴未艾,是具备高价值的研究主题?以上是我对范式转换的个人思考,接下来,我们来梳理下GPT3.0之后LLM模型的主流技术进展;如理想LLM模型所示,相关的技术其实可以分为两大类!一类是关于LLM模型如何从数据中吸收知识,也包括模型规模增长对LLM吸收知识能力带来的影响!第二类是关于人如何使用LLM内在能力来解决任务的人机接口,包括InContextLearning和Instruct两种模式;思维链(CoT)prompting这种LLM推理技术,本质上也属于InContextLearning,因为比较重要,我就把它们单独拎出来讲一下!2学习者:从无尽数据到海量知识从目前研究结果看,Transformer是足够强大的特征抽取器,尚不需要做特别的改进;那么通过预训练过程,Transformer学到了什么;知识是如何存取的!我们又如何修正错误知识;本节讲述这方面的研究进展;求知之路:LLM学到了什么知识LLM从海量自由文本中学习了大量知识,如果把这些知识做粗略分类的话,可以分为语言类知识和世界知识两大类!语言类知识指的是词法、词性、句法、语义等有助于人类或机器理解自然语言的知识;关于LLM能否捕获语言知识有较长研究历史,自从Bert出现以来就不断✽有相关研究,很早就有结论,各种实验充分证明LLM可以学习各种层次类型的语言学知识,这也是为何使用预训练模型后,各种语言理解类自然语言任务获得大幅效果提升的最重要原因之一!另外,各种研究也证明了浅层语言知识比如词法、词性、句法等知识存储在Transformer的低层和中层,而抽象的语言知识比如语义类知识,广泛分布在Transformer的中层和高层结构中?世界知识指的是在这个世界上发生的一些真实事件(事实型知识,FactualKnowledge),以及一些常识性知识(CommonSenseKnowledge);比如“拜登是现任美国总统”、“拜登是美国人”、“乌克兰总统泽连斯基与美国总统拜登举行会晤”,这些都是和拜登相关的事实类知识!而“人有两只眼睛”、“太阳从东方升起”这些属于常识性知识;关于LLM模型能否学习世界知识的研究也有很多,结论也比较一致:LLM确实从训练数据中吸收了大量世界知识,而这类知识主要分布在Transformer的中层和高层,尤其聚集在中层?而且,随着Transformer模型层深增加,能够学习到的知识数量逐渐以指数级增加(可参考:BERTnesia:InvestigatingthecaptureandforgettingofknowledgeinBERT)?其实,你把LLM看作是一种以模型参数体现的隐式知识图谱,如果这么理解,我认为是一点问题也没有的;“WhenDoYouNeedBillionsofWordsofPre-trainingData;”这篇文章研究了预训练模型学习到的知识量与训练数据量的关系,它的结论是:对于Bert类型的语言模型来说,只用1000万到1亿单词的语料,就能学好句法语义等语言学知识,但是要学习事实类知识,则要更多的训练数据?这个结论其实也是在意料中的,毕竟语言学知识相对有限且静态,而事实类知识则数量巨大,且处于不断✽变化过程中;而目前研究证明了随着增加训练数据量,预训练模型在各种下游任务中效果越好,这说明了从增量的训练数据中学到的更主要是世界知识!记忆之地:LLM如何存取知识由上可知,LLM确实从数据中学到了很多语言类及世界知识!那么,对于某条具体的知识,LLM把它存储到了哪里!又是如何提取出来的?这也是一个有意思的问题;显然,知识一定存储在Transformer的模型参数里!从Transformer的结构看,模型参数由两部分构成:多头注意力(MHA)部分占了大约参数总体的三分之一,三分之二的参数集中在FFN结构中!MHA主要用于计算单词或知识间的相关强度,并对全局信息进行集成,更可能是在建立知识之间的,大概率不会存储具体知识点,那么很容易推论出LLM模型的知识主体是存储在Transformer的FFN结构里;但这样的定位,粒度还是太粗,无法很好回答具体某条知识是如何存储与提取的,比如“中国的首都是北京”这条知识,以三元组表达就是lt!北京,is-capital-of,中国gt;,其中“is-capital-of”代表实体间关系!这条知识它存储在LLM的哪里呢;“TransformerFeed-ForwardLayersAreKey-ValueMemories”给❆出了一个比较新颖的观察视角,它把Transformer的FFN看成存储大量具体知识的Key-Value存储器!如上图所示(图左是原始论文图,其实不太好理解,可以看做了注释的图右,更好理解些),FFN的第一层是个MLP宽隐层,这是Key层;第二层是MLP窄隐层,是Value层;FFN的输入层其实是某个单词对应的MHA的输出结果Embedding,也就是通过SelfAttention,将整个句子有关的输入上下文集成到一起的Embedding,代表了整个输入句子的整体信息!Key层的每个神经元节点,记载了一对lt;信息!比如对于上图中FFN第一个隐层的第i个节点ki,也许就是它记载了lt?这条知识?ki节点对应的key向量,其实指的是节点ki和输入层每个节点的权重向量;而对应的Value向量,指的是节点ki和FFN第二层的Value层每个节点形成连接的权重向量?每个神经元的Key向量,用于识别输入中的某种语言或者知识模式,是一种模式探测器;如果输入中包含它要检测的某种模式,那么输入向量和ki节点的key权重进行向量内积计算,加上Relu,形成ki的大数值响应,意味着ki检测到了这个模式,于是再把这个响应值,通过ki节点的Value权重向量向FFN第二层传播;这等价于将Value向量的值,用响应值加权,然后传递并体现到第二层Value层每个节点的输出上!如此这般,FFN的正向传播计算过程,看起来就像是通过Key检测到某种知识模式,然后取出对应的Value,并把Value体现在FFN的第二层输出上!当然,FFN第二层每个节点,会收集FFN的Key层所有节点信息,所以是一种混合响应,而Value层所有节点的混合响应,可以解读为代表输出单词的概率分布信息?听着可能还是比较复杂,我们用个极端的例子来说明?我们假设上图的节点ki就是记载lt!这条知识的Key-Value存储器,它的Key向量,用于检测”中国的首都是…”这个知识模式,它的Value向量,基本存储了与单词“北京”的Embedding比较接近的向量!当Transformer的输入是“中国的首都是[Mask]”的时候,ki节点从输入层探测到这个知识模式,所以产生较大的响应输出;我们假设Key层其它神经元对这个输入都没有任何响应,那么对应的Value层的节点,其实只会接收到“北京”这个Value对应的单词embedding,并通过ki的大响应值,进行了进一步的数值放大;于是,Mask位置对应的输出,就自然会输出“北京”这个单词;基本就是这么个过程,看着很复杂,其实很简单!而且这篇文章还指出,Transformer低层对句子的表层模式作出反应,高层对语义模式作出反应,就是说低层FFN存储词法、句法等表层知识,中层和高层存储语义及事实概念知识,这和其它研究结论是一致的!要我猜,把FFN看成Key-Value存储器这种思路,很可能不是最终的正确答案,但是距离最终正确答案的距离,估计也不太远!知识涂改液:如何修正LLM里存储的知识既然我们已知具体的某条世界知识存储在某个或者某些FFN节点的参数里,自然会引发另外一个问题:我们能否修正LLM模型里存储的错误或者过时的知识呢;比如对于问题:“英国的现任首相是谁!”鉴于近年来英国首相频繁更迭,你猜LLM更倾向输出“鲍里斯”还是更青睐“苏纳克”;很明显训练数据中包含“鲍里斯”的数据会更多,这种情况很大可能LLM会给❆出错误回答,于是我们就有修正LLM里存储的过时知识的必要性;如果归纳下,目前有三类不同方法来修正LLM里蕴含的知识:第一类方法从训练数据的源头来修正知识?“TowardsTracingFactualKnowledgeinLanguageModelsBacktotheTrainingData”这篇文章的研究目标是:对于指定的某条知识,我们是否可以定位到是哪些训练数据导致LLM学会了这条知识!答案是肯定的,这意味着我们可以逆向追踪到某条知识对应的训练数据源头!如果利用这项技术,假设我们想要删除某条知识,则可首先定位到其对应的数据源头,删除数据源,然后重新预训练整个LLM模型,这样即可达成删除LLM中相关知识的目的?但是这里有个问题,如果修正一小部分知识,我们就需要重新做一次模型预训练,这样做明显成本太高?所以这种方法不会太有发展前景,可能比较适合那种对于某个特定类别数据的一次性大规模删除场合,不适合少量多次的常规知识修正场景,比如可能比较适合用来做去除偏见等去toxic内容的处理;第二类方法是对LLM模型做一次fine-tuning来修正知识!一个直观能想到的方法是:我们可以根据要修正成的新知识来构建训练数据,然后让LLM模型在这个训练数据上做fine-tuning,这样指导LLM记住新的知识,遗忘旧的知识?这个方法简单直观,但是也有一些问题,首先它会带来灾难遗忘问题,就是说除了忘掉该忘的知识,还忘掉了不该忘的知识,导致这么做了之后有些下游任务效果下降?另外,因为目前的LLM模型规模非常大,即使是做fine-tuning,如果次数频繁,其实成本也相当高!对这种方法感兴趣的可以参考“ModifyingMemoriesinTransformerModels”;另外一类方法直接修改LLM里某些知识对应的模型参数来修正知识?假设我们想要把旧知识lt!英国,现任首相,鲍里斯gt?,修正到lt?英国,现任首相,苏纳克gt?首先我们想办法在LLM模型参数中,定位到存储旧知识的FFN节点,然后可以强行调整更改FFN中对应的模型参数,将旧知识替换成新的知识!可以看出,这种方法涉及到两项关键技术:首先是如何在LLM参数空间中定位某条知识的具体存储位置;其次是如何修正模型参数,来实现旧知识到新知识的修正!关于这类技术的细节,可以参考“LocatingandEditingFactualAssociationsinGPT”和“Mass-EditingMemoryinaTransformer”;理解这个修正LLM知识的过程,其实对于更深入理解LLM的内部运作机制是很有帮助的;3规模效应:当LLM越来越大时会发生什么我们知道,近年来,LLM模型规模在快速增长,目前效果最好的LLM模型,其参数规模大都超过了千亿(100B)参数规模!比如,OpenAI的GPT3的规模为175B,Google的LaMDA规模为7B,PaLM的规模为540B,DeepMind的Gogher规模为280B等,不一而足!国内也有中文巨型模型,比如智源GLM规模0B,华为“盘古”规模200B,百度“文心”规模260B,浪潮“源1.0”规模245B?那么,一个很自然的问题就是:随着LLM模型规模不断✽增长,会发生些什么呢!预训练模型的应用往往是两阶段♎的:预训练阶段♎,及具体场景应用阶段♎?在预训练阶段♎,其优化目标是交叉熵,对GPT这种自回归语言模型来说,也就是看LLM是否正确预测到了下一个单词;而场景应用阶段♎,一般要看具体场景的评价指标;一般我们的直觉是:如果LLM模型在预训练阶段♎的指标越好,自然它解决下游任务的能力就越强?然而,事实并非完全如此;现有研究已证明,预训练阶段♎的优化指标确实和下游任务表现出正相关关系,但是并非完全正相关?也就是说,只看预训练阶段♎的指标,来判断✽一个LLM模型是否够好,这是不够的?基于此,我们分头来看在这两个不同阶段♎,随着LLM模型增大,有什么影响;首先,我们先看在预训练阶段♎,随着模型规模逐步增大,会发生什么;OpenAI在“ScalingLawsforNeuralLanguageModels”中专门研究了这个问题,并提出LLM模型所遵循的“伸缩法则”(scalinglaw);如上图所示,这个研究证明:当我们独立增加训练数据量、模型参数规模或者延长模型训练时间(比如从1个Epoch到2个Epoch),预训练模型在测试集上的Loss都会单调降低,也就是说模型效果越来越好;既然三个因素都重要,那么我们在实际做预训练的时候,就有一个算力如何分配的决策问题:假设用于训练LLM的算力总预算(比如多少GPU小时或者GPU天)给❆定,那么是应该多增加数据量、减少模型参数呢!还是说数据量和模型规模同时增加,减少训练步数呢!此消彼长,某个要素规模增长,就要降低其它因素的规模,以维持总算力不变,所以这里有各种可能的算力分配方案!最终OpenAI选择了同时增加训练数据量和模型参数,但是采用早停策略(earlystopping)来减少训练步数的方案;因为它证明了:对于训练数据量和模型参数这两个要素,如果只单独增加其中某一个,这不是最好的选择,最好能按照一定比例同时增加两者,它的结论是优先增加模型参数,然后才是训练数据量?假设用于训练LLM的算力总预算增加了10倍,那么应该增加5.5倍的模型参数量,1.8倍的训练数据量,此时模型效果最佳!DeepMind的一项研究(参考:TrainingCompute-OptimalLargeLanguageModels)更深入地探究了这个问题,其基本结论和OpenAI的结论差不多,比如确实需要同时增加训练数据量和模型参数,模型效果才会更好;而很多大模型在做预训练的时候,并没有考虑这一点,很多LLM大模型只是单调增加模型参数,而固定住了训练数据量,这个做法其实是不对的,限制了LLM模型的潜力!但是它修正了两者的比例关系,认为训练数据量和模型参数是同等重要的,也就是说,假设用于训练LLM的算力总预算增加了10倍,那么应该增加3.3倍的模型参数量,3.3倍的训练数据量,这样模型效果才最好!这意味着:增加训练数据量的重要性,比我们之前所认为的,还要重要?基于这个认知,DeepMind在设计Chinchilla模型时,在算力分配上选择了另外一种配置:对标数据量300B、模型参数量280B的Gopher模型,Chinchilla选择增加4倍的训练数据,但是将模型参数降低为Gopher的四分之一,大约为70B?但是无论预训练指标,还是很多下游任务指标,Chinchilla效果都要优于规模更大的Gopher;这带给❆我们如下启示:我们可以选择放大训练数据,并同比例地减少LLM模型参数,以达到在不降低模型效果的前提下,极大缩小模型规模的目的!缩小模型规模有很多好处,比如在应用的时候,推理速度会快很多等,无疑这是一个很有前途的LLM发展路线?以上是从预训练阶段♎来看模型规模的影响,如果从LLM解决下游具体任务效果的角度来看,随着模型规模增大,不同类型的任务有不同的表现,具体而言,有以下三类情况!第一类任务完美体现了LLM模型的scalinglaw,就是说随着模型规模逐步放大,任务的表现越来越好,如上图里的(a)图所示!这类任务通常符合如下共性:它们往往都是知识密集型任务,也就是说如果LLM模型包含的知识量越多,这类任务表现越好?而很多研究已经证明越大的LLM模型学习效率越高,也就是说相同训练数据量,模型越大任务效果越好,说明面对的即使是同样的一批训练数据,更大的LLM模型相对规模小一些的模型,从中学到了更多的知识!更何况一般情况下,在增大LLM模型参数的时候,往往会增加训练数据量,这意味着大模型可以从更多数据中学习更多的知识点?这些研究可以很好地解释上图,为何随着模型规模增大,这些知识密集型的任务效果越来越好!大多数传统的自然语言理解类任务,其实都属于这种知识密集型任务,而很多任务在近两年获得了极大的效果提升,甚至超过了人类表现!很明显,这大概率是LLM模型的规模增长带来的,而非归功于某项具体的技术改进!第二类任务展现出LLM具备某种“涌现能力(EmergentAbility)”,如上图(b)所示;所谓“涌现能力”,指的是当模型参数规模未能达到某个阀值时,模型基本不具备解决此类任务的任何能力,体现为其性能和随机选择答案效果相当,但是当模型规模跨过阀值,LLM模型对此类任务的效果就出现突然的性能增长?也就是说,模型规模是解锁(unlock)LLM新能力的关键,随着模型规模越来越大,会逐渐解锁LLM越来越多的新能力?这是个很神奇的现象,因为它意味着如下让人对未来可报乐观预期的可能:或许很多任务,目前LLM还不能很好地解决,甚至站在现在这个时刻的我们看起来,LLM完全没有能力解决这类任务,但因LLM具备“涌现能力”,所以如果我们继续推大模型,也许某一天它的这项能力就被突然解锁了!LLM模型的规模增长会给❆我们带来意想不到的精彩礼物;“BeyondtheImitationGame:Quantifyingandextrapolatingthecapabilitiesoflanguagemodels”这篇文章指出,这类体现出“涌现能力”的任务也有一些共性:这些任务一般由多步骤构成,要解决这些任务,往往需要先解决多个中间步骤,而逻辑推理能力在最终解决这类任务中发挥重要作用;思维链(ChainofThought)Prompting是典型的增强LLM推理能力的技术,能大幅提升此类任务的效果,关于CoT技术,在随后小节内容会做解释,此处暂不展开?问题是,为何LLM会出现这种“涌现能力”现象呢!上述文章以及“EmergentAbilitiesofLargeLanguageModels”给❆出了几个可能的解释:一种可能解释是有些任务的评价指标不够平滑;比如说有些生成任务的判断✽标准,它要求模型输出的字符串,要和标准答案完全匹配才算对,否则就是0分;所以,即使随着模型增大,其效果在逐步变好,体现为输出了更多的正确字符片段♎,但是因为没有完全对,只要有任何小错误都给❆0分,只有当模型足够大,输出片段♎全部正确才能得分;也就是说,因为指标不够平滑,所以不能体现LLM其实正在逐步改善任务效果这一现实,看起来就是“涌现能力”这种外在表现?另外一种可能的解释是:有些任务由若干中间步骤构成,随着模型规模增大,解决每个步骤的能力也在逐步增强,但是只要有一个中间步骤是错的,最终答案就是错的,于是也会导致这种表面的“涌现能力”现象;当然,上面的解释目前还都是猜想,至于为何LLM会出现这种现象,还需要进一步更深入的研究;还有少部分任务,随着模型规模增长,任务的效果曲线展现出U形特性:随着模型规模逐渐变大,任务效果逐渐变差,但是当模型规模进一步增长,则效果开始越来越好,呈现出U形增长趋势,如上图所示的粉红色PaLM模型在两个任务上的指标走势;为何这些任务表现得如此特殊呢!“InversescalingcanbeeU-shaped”这篇文章给❆出了一种解释:这些任务,内部其实隐含了两种不同类型的子任务,一种是真正的任务,另外一种是“干扰任务(distractortask)”?当模型规模小的时候,无法识别任意一种子任务,所以模型的表现跟随机选择答案差不多,当模型增长到中等规模的时候,主要执行的是干扰任务,所以对真正的任务效果有负面影响,体现为真正任务效果的下降,而当进一步增加模型规模,则LLM可以忽♎略干扰任务,执行真正的任务,体现为效果开始增长?对于那些随着模型规模增大,效果一直下降的任务,如果采用思维链(CoT)Prompting,则部分任务的表现转换为遵循Scalinglaw,即模型规模越大效果越好,而其它任务则转换为U性增长曲线?这其实侧面说明了:此类任务应属于推理类型的任务,所以加入CoT后任务表现会发生质的变化;4人机接口:从InContextLearning到Instruct理解一般我们经常提到的人和LLM的接口技术包括:zΤeroshotprompting、fewshotprompting、InContextLearning,以及Instruct!这些其实都是表达某个具体任务的描述方式!不过如果你看文献,会发现叫法比较乱?其中Instruct是ChatGPT的接口方式,就是说人以自然语言给❆出任务的描述,比如“把这个句子从中文翻译成英文”,类似这种;zΤeroshotprompting我理解其实就是现在的Instruct的早期叫法,以前大家习惯叫zΤeroshot,现在很多改成叫Instruct?尽管是一个内涵,但是具体做法是两种做法!早期大家做zΤeroshotprompting,实际上就是不知道怎么表达一个任务才好,于是就换不同的单词或者句子,反复在尝试好的任务表达方式,这种做法目前已经被证明是在拟合训练数据的分布,其实没啥意思;目前Instruct的做法则是给❆定命令表述语句,试图让LLM理解它?所以尽管表面都是任务的表述,但是思路是不同的!而InContextLearning和fewshotprompting意思类似,就是给❆LLM几个示例作为范本,然后让LLM解决新问题?我个人认为InContextLearning也可以理解为某项任务的描述,只是Instruct是一种抽象的描述方式,InContextLearning是一种例子示范的例子说明法;当然,鉴于目前这几个叫法用的有点乱,所以上述理解仅代表个人看法;所以我们此处只对InContextLearning和Instruct进行介绍,不再提zΤeroshot和fewshot了?神秘的InContextLearning如果你细想,会发现InContextLearning是个很神奇的技术;它神奇在哪里呢?神奇在你提供给❆LLM几个样本示例lt?,然后给❆它xn+1,LLM竟然能够成功预测对应的yn+1;听到这你会反问:这有什么神奇的呢;Fine-tuning不就是这样工作的吗;你要这么问的话,说明你对这个问题想得还不够深入!Fine-tuning和InContextLearning表面看似都提供了一些例子给❆LLM,但两者有质的不同(参考上图示意):Fine-tuning拿这些例子当作训练数据,利用反向传播去修正LLM的模型参数,而修正模型参数这个动作,确实体现了LLM从这些例子学习的过程!但是,InContextLearning只是拿出例子让LLM看了一眼,并没有根据例子,用反向传播去修正LLM模型参数的动作,就要求它去预测新例子?既然没有修正模型参数,这意味着貌似LLM并未经历一个学习过程,如果没有经历学习过程,那它为何能够做到仅看一眼,就能预测对新例子呢;这正是InContextLearning的神奇之处;这是否让你想起了一句歌词:“只是因为在人群中多看了你一眼再也没能忘掉你容颜”,而这首歌名叫“传奇”!你说传奇不传奇!看似InContextLearning没从例子里学习知识,实际上,难道LLM通过一种奇怪的方式去学习!还是说,它确实也没学啥;关于这个问题的答案,目前仍是未解之谜?现有一些研究各有各的说法,五花八门,很难判断✽哪个讲述的是事实的真相,甚至有些研究结论还相互矛盾?这里提供几个目前的说法,至于谁对谁错,只能你自己把握了?当然,我认为追求这个神奇现象背后的真相,是一个好的研究课题!试图证明InContextLearning没有从例子中学习的工作是“RethinkingtheRoleofDemonstrations:WhatMakesIn-ContextLearningWork!”!它发现了:在提供给❆LLM的样本示例lt!中,yi是否xi对应的正确答案,其实并不重要,如果我们把正确答案yi替换成随机的另外一个答案yj,这并不影响InContextLearning的效果;这起码说明了一点:InContextLearning并没有提供给❆LLM那个从x映射到y的映射函数信息:y=f(x),否则的话你乱换正确标签,肯定会扰乱这个y=f(x)映射函数?也就是说,InContextLearning并未学习这个输入空间到输出空间的映射过程!真正对InContextLearning影响比较大的是:x和y的分布,也就是输入文本x的分布和候选答案y有哪些,如果你改变这两个分布,比如把y替换成候选答案之外的内容,则InContextLearning效果急剧下降;总之,这个工作证明了InContextLearning并未学习映射函数,但是输入和输出的分布很重要,这两个不能乱改;有些工作认为LLM还是从给❆出的示例学习了这个映射函数y=f(x),不过是种隐式地学习?比如“Whatlearningalgorithmisin-contextlearning?Investigationswithlinearmodels”认为Transformer能够隐式地从示例中学习x到y的映射过程,它的激活函数中包含了一些简单映射函数,而LLM通过示例能够激发对应的那一个;而“WhyCanGPTLearnIn-Context?LanguageModelsSecretlyPerformGradientDescentasMeta-OptimizΤers”这篇文章则将ICL看作是一种隐式的Fine-tuning?总而言之,目前这还是一个未解之谜;神奇的Instruct理解我们可以把Instruct当作一种方便人类理解的任务表述,在这个前提下,目前关于Instruct的研究可以分成两种:偏学术研究的Instruct,以及关于人类真实需求描述的Instruct;我们先来看第一种:偏学术研究的Instruct!它的核心研究主题是多任务场景下,LLM模型对Instruct理解的泛化能力!如上图中FLAN模型所示,就是说有很多NLP任务,对于每个任务,研究人员构造一个或者多个Prompt模版作为任务的Instruct,然后用训练例子对LLM模型进行微调,让LLM以同时学习多个任务!训练好模型后,给❆LLM模型一个它没见过的全新任务的Instruct,然后让LLM解决zΤeroshot任务,从任务解决得是否足够好,来判断✽LLM模型是否有对Instruct理解的泛化能力!如果归纳下目前的研究结论(可参考“ScalingInstruction-Fine-tunedLanguageModels”/“Super-NaturalInstructions:GeneralizΤationviaDeclarativeInstructionson1600+NLPTasks”),能够有效增加LLM模型Instruct泛化能力的因素包括:增加多任务的任务数量、增加LLM模型大小、提供CoTPrompting,以及增加任务的多样性?如果采取任意一项措施,都可以增加LLM模型的Instruct理解能力;第二种是人类真实需求下的Instruct,这类研究以InstructGPT和ChatGPT为代表!这类工作也是基于多任务的,但是和偏向学术研究类工作最大的不同,在于它是面向人类用户真实需求的!为什么这么说呢?因为它们用于LLM多任务训练的任务描述Prompt,是从大量用户提交的真实请求中抽样而来的,而不是固定好研究任务的范围,然后让研究人员来写任务描述prompt?这里所谓的“真实需求”,体现在两个方面:首先,因为是从用户提交的任务描述里随机抽取的,所以涵盖的任务类型更多样化,也更符合用户的真实需求;其次,某个任务的prompt描述,是用户提交的,体现了一般用户在表达任务需求时会怎么说,而不是你认为用户会怎么说;很明显,这类工作改出来的LLM模型,用户体验会更好;InstructGPT论文里,也拿这种方法和FLAN那种Instructbased方法做了比较!首先在GPT3上用FLAN提到的任务、数据以及Prompt模版进行微调,来在GPT3上复现FLAN方法,然后和InstructGPT进行比较,因为InstructGPT的基础模型也是GPT3,所以只有数据和方法的差别,两者可比,结果发现FLAN方法的效果,距离InstructGPT有很大的差距;那么背后的原因是什么呢;论文分析数据后认为,FLAN方法涉及到的任务领域相对少,是InstructGPT涉及领域的子集,所以效果不好?也就是说,FLAN论文里涉及到的任务和用户真实需求是不符的,而这导致在真实场景下效果不够好;而这对我们的启示是:从用户数据中收集真实需求,这事情是很重要的;InContextLearning和Instruct的如果我们假设InContextLearning是用一些例子来具象地表达任务命令,Instruct是一种更符合人类习惯的抽象任务描述!那么,一个很自然的问题是:它们之间有什么吗;比如,我们是否能够提供给❆LLM完成某个任务的若干具体示例,让LLM找出其对应的自然语言描述的Instruct命令;目前有零星的工作在探索这个问题,我认为这个方向是很有研究价值的;先说答案,答案是:Yes,LLMCan;“LargeLanguageModelsAreHuman-LevelPromptEngineers”是做这个方向很有趣的工作,如上图所示,对于某项任务,给❆LLM一些示例,让LLM自动生成能够描述这项任务的自然语言命令,然后它再用LLM生成的任务描述去测试任务效果;它使用的基础模型是GPT3和InstructGPT,经过这项技术加持后,LLM生成的Instruct的效果相比未采用这项技术的GPT3以及InstuctGPT来说,指标有极大地提升,而且在一些任务上超过人类的表现?这说明了:具象的任务示例和任务的自然语言描述之间,有种神秘的内在!至于这种到底是什么!我们目前对此还一无所知!5智慧之光:如何增强LLM的推理能力目前很多研究已证明LLM对于知识具有强大的记忆能力,但是,一般我们不会因为一个人记忆能力强,就说这人很聪明,是否具有强大的推理能力,往往是我们判断✽一个人是否聪明的重要标准!类似的,如果LLM的效果想让人觉得很惊艳,强大的推理能力是必备的?推理能力本质上是综合运用很多相关知识点,去推导出新知识或新结论?关于LLM的推理能力,是最近一年来LLM里最重要和热门的研究领域之一!于是,我们关心的问题就是:LLM具备推理能力吗;如果具备,那么它的推理能力够强吗;这两个问题目前的答案似乎应该是:当模型规模足够大的时候,LLM本身是具备推理能力的,在简单推理问题上,LLM已经达到了很好的能力,但是复杂推理问题上,还需要更多深入的研究?如果梳理现有LLM推理相关工作的话,我把它们归到两大类,体现出挖掘或促进LLM推理能力不同的技术思路:第一类研究比较多,可以统称为基于Prompt的方法,核心思想是通过合适的提示语或提示样本,更好地激发出LLM本身就具备的推理能力,Google在这个方向做了大量很有成效的工作;第二类做法是在预训练过程中引入程序代码,和文本一起参与预训练,以此进一步增强LLM的推理能力,这应该是OpenAI实践出的思路;比如ChatGPT肯定具备很强的推理能力,但它并不要求用户必须提供一些推理示例,所以ChatGPT强大的推理能力,大概率来源于使用代码参与GPT3.5的预训练!这两种思路其实大方向是迥异的:利用代码增强LLM推理能力,这体现出一种通过增加多样性的训练数据,来直接增强LLM推理能力的思路?而基于Prompt的方法,它并不会促进LLM本身的推理能力,只是让LLM在解决问题过程中更好地展示出这种能力的技术方法;可以看出,前者(代码方法)治本,后者治标?当然,两者其实也是互补的,但从长远看,治本的方法更重要?基于Prompt的方法这方面工作非常多,如果归纳一下的话,大致可以分为三条技术路线!第一种思路是直接在问题上追加辅助推理Prompt?这种方法简单直接,但在众多领域都很有效?这个做法是由“LargelanguagemodelsarezΤero-shotreasoners”提出的,也被称为zΤero-shotCoT!具体而言,分为两个阶段♎(如上图所示),第一阶段♎在提问的问题上追加“Let’sthinkstepbystep”这句提示语,LLM会输出具体的推理过程;第二阶段♎,在第一阶段♎的问题后,拼接LLM输出的具体推理过程,并再追加Prompt=“Therefore,theanswer(arabicnumerals)is”,此时LLM会给❆出答案;如此简单的操作,却可以大幅增加LLM在各项推理任务中的效果,比如在数学推理测试集GSM8K上,加上提示语后,推理准确率直接从原先的10.4%提升到了40.4%,可谓神奇!为什么LLM会具备给❆一句“Let’sthinkstepbystep”提示语,就能列出详细的推理步骤并算出答案呢?其原因目前尚无定论,我的猜测是:很可能因为预训练数据里面存在大量的此种数据,就是以“Let’sthinkstepbystep”开头,然后后面是详细的推理步骤,最后给❆出答案,而LLM在预训练的时候记住了这些模式?而当我们输入这个提示语的时候,激发LLM模糊得“回忆”起某些例子的推导步骤,于是即可模仿这些例子进行步骤推理并给❆出答案?当然这只是我的无依据推论,若事实真的如此,如果你看过后面介绍的标准CoT做法,会发现Zero-shotCoT本质上和标准CoT很可能没什么区别,只是标准CoT由人工来写推理步骤的示例,而Zero-shotCoT大概率是通过提示语,激活了记忆中的某些包含推理步骤的示例,很可能是如此区别;而标准CoT效果比Zero-ShotCoT效果好也完全可以理解,因为毕竟靠LLM回忆示例,精准性估计不会太高,而人工给❆出的示例,准确性是有保障的,所以自然标准CoT效果会更好?这侧面说明了一个道理,就是LLM本身是具备推理能力的,只是我们没有办法把它的这种能力激发出来而已,通过合适的提示语来进行两步提示,就在一定程度上可以释放出它的这种潜力;另外,对于中文,很可能存在另外一个黄金提示语,比如“详细解题思路如下”,类似这种,因为中文语料在讲解推理步骤的时候,经常用的引导句和“让我们一步一步来思考”应该是不同的,这是明显的西方说法,而探索出这个中文黄金提示语,其实也是很有必要的;第二种思路一般被称为基于示例的思维链(few-shotCoT,ChainofThought)Prompting!这个方向目前是LLM推理研究的主方向,很多工作都是在这个思路上做的,我们简单介绍几个效果显著的代表性工作,基本能代表CoT的技术发展方向?CoT的主体思想其实很直白;为了教会LLM模型学会推理,给❆出一些人工写好的推理示例,示例里把得到最终答案前,一步步的具体推理步骤说清楚,而这些人工写的详细推理过程,就是思维链Prompting,具体例子可参照上图中蓝色文字部分;CoT的意思是让LLM模型明白一个道理!就是在推理过程中,步子不要迈得太大,否则很容易出错,改变思维模式,化大问题为小问题,步步为营,积小胜为大胜?最早明确提出CoT这个概念的文章是“Chainofthoughtpromptingelicitsreasoninginlargelanguagemodels”,论文发布于22年1月份,虽然做法很简单,但是应用CoT后LLM模型的推理能力得到了巨大提升,GSM8K数学推理测试集准确率提高到60.1%左右;当然,这种给❆出详细推理步骤和中间过程的思想,并非CoT最早提出的,更早一些的“scratchpad”技术(可参考:ShowYourWork:ScratchpadsforIntermediateComputationwithLanguageModels)首先采用了类似的思路;CoT提出不久,很快在22年3月份,一项被称为“Self-Consistency”的改进技术就将GSM8K测试集准确率提高到74.4%,提出这项改进的论文是“Self-ConsistencyImprovesChainofThoughtReasoninginLanguageModels”;“Self-Consistency”的思路也很直观(参考上图):首先可以利用CoT给❆出几个写了推理过程的示例,然后要求LLM对给❆定的问题进行推理,如果是CoT,直接输出一个推理过程和答案,整个过程就结束了?“Self-Consistency”则不然,它要求LLM输出多个不同的推理过程和答案,然后采用投票的方式选出最佳答案,思路非常简单直接,但是效果也确实好;“Self-Consistency”其实是教导LLM学会这么一个道理:孔乙己说过茴香豆的“茴”字有四种写法,类似的,一个数学题的正确解法也可以有很多种,每个不同的推导过程都指向最终的答案?条条大路通罗马,虽说也有个别迷路走到北京的,但是迷路的毕竟是少数,看看大多数人走到哪里,哪里就是正确答案?简单的方法往往蕴含着深刻的哲学含义,是不是这道理;再往后,“OntheAdvanceofMakingLanguageModelsBetterReasoners”这个工作在“Self-Consistency”基础上,进一步集成了“从一个Prompt问题拓展到多个Prompt问题、检查推理中间步骤的正确性以及对多个输出的回答加权投票”这三个改进点,将GSM8K测试集准确率提高到83%左右;第三种思路体现了一种分治算法的思想?当然这个所谓“分治”是我归纳的,别人没这么说?这种思路的核心思想是:对于一个复杂的推理问题,我们把它分解成若干容易解决的子问题,一一解决掉子问题后,我们再从子问题的答案推导复杂问题的答案!你看这确实比较类似分治算法的思想吧;我个人觉得,这种思路可能才是揭示问题本质;且说唐僧师徒取回真经,各成正果,都在雷音寺如来佛祖座下供职?一日,他师徒四人领了佛祖法旨,外出公干,来到通天河边;但见河中波涛汹涌,浪花飞溅,远无帆影,近无人烟;唐僧立刻想起当年在这河中落水遇难的往事,不由心惊胆战,浑身发冷?他急皱双眉❆,连连叹气:“徒弟啊,这通天河水急势恶,一没有桥,二没有船,附近连个人影都没有,却是怎生过河!”沙僧紧锁双眉❆,低头沉思!八戒把一副长嘴插进怀里,只用两只无光的大眼看着别处?悟空急得抓耳挠腮,一时也想不出好主意,正在众人为难时,忽♎听哗啦啦一阵水响,突然从河里耸出一块巨型广告牌来!这广告牌宽一丈开外,高三丈有余,其形状犹如船帆?上边五颜六色,描画着许多抽象图案,有的像阴阳八卦,有的如日月星辰,有的若金币银元?上边是一排斗大金字,写的是:宇航公司竭诚为您服务;下边又有小字云:宇宙奇观,生物渡船,随君所欲,参观游览,超级享受,收费低廉,莫失良机,请君上船?唐僧等人惊愕不已,又见广告牌下浮起一只巨大无比的白癞头鼋来;这老鼋头若柳斗,口似血盆,两眼约有小碗大小;它对众人喊道:“空前绝后,超级享受,万年生物渡船,伴您游遍宇宙?服务最周到,报销有发票!想开多少开多少;各位大腕,各位大款,过了这个村,没有这个店,不坐我的船,过河难上难?时间就是生命,时间就是金钱,莫失良机,快请上船!”这老鼋口若悬河,滔滔不绝;孙悟空将它细细打量一阵,忽♎然笑道:“老家伙,先别卖嘴?我且问你:还认得我老孙吗!”老鼋兀自把两眼一闭,摇着脑袋说:“我只认钱,不认人;管你赵钱孙李,掏钱我就渡你?”悟空道:“俺老孙却认得你这无毛怪?想当初我师徒从西天取了真经,返回大唐,来到这通天河岸,请你摆渡!没料想你这厮忽♎生恶念,陡起坏心,竟将我等翻落河中,湿了许多佛经,损失难以估计;这笔帐还给❆你记着哩?”这老鼋对众人打量一番,气呼呼道:“那笔帐我更不曾忘记!可到底是谁欠谁的,倒要摆个明白,说个清楚?当初你师徒从大唐往西天去,四个人一匹马,还有许多行李,全由我伏渡过河,载重千余斤,不曾收分厘费用?我只央求你们向如来佛祖问一问,我的年寿还有多少!那时你们满口答应;可几年后你们取经回来,我又无偿为你们摆渡时,问到我拜托的事,你们居然大眼瞪小眼,都把这事忘了?凡夫俗子,尚知受人之托,忠人之事,你们都是有道高僧,口口声声说出家人不打诳语,可居然言而无信!你们自己做了亏心事,反倒来责怪我,岂不可笑;”唐僧听老鼋这么说,自觉心中有愧,忙道:“贫僧曾对你失信,深感抱歉!但你也曾泄过气愤了?我看以往的事就不必再提了?我等此番渡河,按价付款,但望莫记前隙,确保安全才是?”老鼋道:“这位长老到底明白事理;以前那件事咱就算扯平了,再莫讲谁是谁非!这次渡河,我担保诸位快速安全,称心如意;如果大家有兴致,最好来个通天河几日游,我送诸位去几个风景优美的所在,看名胜,览古迹,尝尝沿岸城镇风味小吃,逛逛新潮歌舞厅,唱唱卡拉OK,看看脱衣舞表演,洗洗桑拿浴,好好享受享受?”猪八戒只听得走火入魔,手舞足蹈跃跃欲试,但唐僧却皱眉❆闭眼,现出深恶痛绝之色,双手合十,口中念道:“阿弥陀佛,罪过罪过?”孙悟空厉声喝道:“无耻老怪,怎敢对我等佛门弟子污言秽语,满口喷粪;莫非你活腻了不成;”老鼋道:“怪事怪事,已往我向旅客提供种种旅游信息,人家都大把大把掏金拿银赏小费,你几位却装模作样假正经?既然诸位思想僵化,因循守旧,算我没说还不行;如此就再别浪费时间,快快上船,送你们过河去!”师徒四人踏上老鼋的背壳,这老鼋摆动四肢,立波踏浪,如行平地?约走了两个时辰,来到中流,那老鼋突然停住,张开血盆大口道:“船家规距,河心收费;请诸位每人交过河费白银50两,卫生费、采光费、纳新费、安全费各5两,另有古生物保护费20两,合计白银90两!四位总计360两?”师徒四人无不吃惊;悟空道:“老怪物,你脸上没长麻子,怎地如此坑人!”老鼋道:“这是有偿服务,怎说坑人?”八戒道:“你漫天要价,不是坑人是宰人?”老鼋道:“什么漫天要价!什么坑人宰人?我这是水涨船高,随行就市;这通天河水宽10多里,只收你50两银子,这价码够低的了?”沙僧道:“还有这个费那个费,乱立名目,任意开价,却有何道理?”老鼋道:“各项收费都有依据,并非胡来?你等都是两脚尘土,踏脏了我的脊背,难道不该交些卫生费吗;如果态度不好,加倍惩罚;你们要是坐那些轮船航行,船舱里不见阳光,空气污浊,对身体健康极其不利;而在我背上呢,阳光充足,紫外线丰富,既可任意采光,亦可作日光浴;因此,理应交纳采光费用!这通天河上空气新鲜,含氧量最高?诸位尽可做深呼吸,吐故纳新,以便强身健体,延年益寿?所以,适当收些纳新费,是完全合理的?这河里常有鳄鱼、鲨鱼出没,时时伤人,我确保诸位生命安全,这安全费是非交不可的?我本系史前生物,已经活了两万三千岁,实为世上绝无仅有的古代生物,理应受到各界特殊保护!因此,收取保护费是天经地义的!”悟空见老鼋强词夺理,滔滔不绝,怒喝道:“你这厮张口是钱,闭口是钱,连阳光空气也敢卖钱?你真是钱迷心窍,无法无天?”老鼋道:“如今是金钱社会,世上谁个不爱钱;有钱能买鬼推磨,有钱能买神下凡?四位都是蓬莱佛国的知名人物,《蓬莱晚报》上时常报道诸位的事迹?想当初你们从东土大唐到西天取经,费尽千辛万苦,历尽千难万险,可到了雷音寺,就因为没给❆把门的阿傩、伽叶二人送礼,惹得他俩生气,居然把那连一个字儿也没有的白纸本儿给❆了你们!这些都是你们亲身经历的事,恐怕还不曾忘记吧;我和他们相比,已经是很不错的了!”这番话句句戳在众人的痛处,四个人张口结舌,无言以对!唐僧满面通红,沉吟许久,搪塞道:“那些报道都是无中生有,胡编乱造,不可轻信,不可轻信?咱们还是议议船价吧?我等此番出差,仓促上路,只带了十来两银子,却是往返的盘缠;还望施主大发慈悲,多多照顾些个;给❆你三两银子如何?”老鼋道:“三两银子想过河!我真怕要笑落了牙齿;大和尚岁数也够老的了,见的世面也够广的了,却如何说出这等没见识的话来!”唐僧央求道:“我们都是苦行僧,平时不蓄黄白之物,求施主结个善缘……”老鼋冷笑:“好一个不蓄黄白之物,请八戒长老将两耳朵里的存货掏出来看看,那些东西可是泥块煤渣!”八戒连忙捂了耳朵,瞪着老鼋道:“你这老妖怪,老猪不曾惹你,你为何取笑我;”老鼋道:“好好好,罢了罢了,你那两只耳朵掏光倒尽,也解决不了问题!反正一句话:不管是僧是道,只要付足船钱?”说罢便闭了双眼,只在原处漂浮打转,口里哼起流行歌曲:“妹妹你坐船头……”悟空又气又急,掏出金箍棒来,在老鼋地盖上捣了几下?只见这甲壳坚如钢铁,发出金石之声?捣轻了它不疼不痒,捣重了又怕害大家落水;他抓耳挠腮,忽♎生一计!只见他从沙僧的禅杖上取下一个环儿,念动咒语,吹口仙气,那环竟变成老大一个金钱,光灿灿,明晃晃,眩目耀眼,中间那钱孔就有脸盆大小?他把金钱挑在金箍棒头上,伸向东方,对老鼋说:“老财迷,实话告诉你,我蓬莱佛国人杰地灵,物华天宝,金银遍地,珠玉成山,还在乎这区区几百两银子?刚才不过是逗你耍子!此番出差,我等嫌携带散碎金银,多有不便,所以随便拿了一个金钱;你睁开两眼看看,这个金钱的成色份量如何!”老鼋闻听,急睁双眼,见这金钱竟有磨盘大小,光芒四射,如浩日当空,不由惊叹:“啊呀呀,我活了两万三千岁,何曾见过这样巨大的金钱?此番真正是大开眼界,大开眼界?”说着就把两只眼越瞪越大,眼球充血,闪着红光,几乎要从眼眶里脱落下来,好似两盏红色球形灯!悟空笑道:“老财迷,俺老孙欲把这个小钱儿用来交船钱,只怕你倾家荡产,尽其所有,也凑不够找头吧;”老鼋道:“老佛爷,不知这金钱究竟有多重;”悟空道:“不重不重,不过360斤?”老鼋道:“啊呀呀,还说不重;我全部家财加上这副老骨头,也凑不够找头;我的爷,求你另外想想法子;你老身上拔根毫毛,也比我的腰肚子粗哩?”悟空道:“罢罢罢,咱爷们都是大款儿,平时为玩乐一掷千金,今天岂能不掏船钱;俺老孙有个嗜好,爱打赌⚠取乐!今儿个和你打个赌⚠,我就站在你背上,用棒子挑着这个金钱,钱边儿不离这水面,方向位置不变?你若能将头伸进这钱眼里,这只金钱就归你!你以为如何;”老鼋道:“我的爷,你这话可是当真?”悟空道:“出家人不打诳语?”老鼋激动万分,使出全身力气,尽量伸长脖子,将头朝钱眼里钻去,那脖子居然伸到一丈多长?但悟空端着如意棒,随时调整长短,让那老怪物的头和金钱若即若离,可触而不可入?这老鼋心急如火,四条腿拼命划着水往前冲,那速度赛过世界最新快艇;不一会儿,已经抵达东岸!老怪物财迷心窍,过了河,上了岸,仍对那诱人的金钱穷追不舍,还拼命伸着脖子往前爬,大有不达目的誓不罢休之势;但陆地行走毕竟不是它的专长,尽管它竭尽全力,速度仍然很慢?悟空怕误了公事,便对老鼋道:“老财迷,你一心钻钱眼,可叹脖子短?这回打赌⚠你是输家了?不知你还有何话说;”老鼋泪如泉涌,痛心疾首,恨自己失去了这千载难逢的发财良机!它将头在地上狠狠摔了几摔,无可奈何地悲叹道:“诸位老佛爷,只怪我没有能耐,命苦运乖,天不佑我?我自家输了,能怨哪个?但求爷爷们办完公事回来,仍让我渡诸位过河,再给❆我一次争取的机会;那时如果仍然输给❆你们,我就爬到岸上,四爪朝天,任凭风吹日晒,蚁食鸟啄,了此残生……”说罢放声痛哭,其状至哀!悟空笑道:“老家伙别哭,别哭;这金钱若是不给❆你,只怕你要精神失常哩!罢罢罢,出家人心肠最软,怎能看着你寻死觅活,我佛慈悲,普渡众生,且让你遂了心愿吧?来来来,你再钻一次试试?”说着便把金钱往后移动,配合着老鼋的动作,尽快让它把头钻进了钱眼里!这老鼋终于如愿以偿,欣喜若狂,将脖子摇来扭去,好似一段♎狂舞的黑蟒!悟空等人下了鼋盖,取路东行;沙僧道:“师兄,你怎不把那环取下来还我;”悟空道:“那老财迷获得金钱实属不易,且让它过足了钱瘾再收不迟;”不说唐僧师徒一路东去,且说那老鼋得了金钱,却招了大灾,这金钱的钱眼儿渐渐缩小,一天缩小三分,三天缩一寸,一个劲儿往脖子肉里钻,痛得它哭天叫地,却总也取不脱,褪不掉,无计可施;数日后,那金钱仍复为一个小小圆环,竟把一个多年老怪活活勒死;可怜老财迷的所有积蓄尽付东流,惟留下一个悲哀的故事,任世人评说;看完这段♎视频,我感触颇深,也学到很多东西!孩子是一个自由的生命体,有自己的轨迹,我们应该去尊重他的想法与爱好,不能用成人世界的眼光去阻止他的尝试和探索?孩子长大了,和所有人一样,有所长有所短,我们应该接受孩子的长处与短处,不能用成人世界的喜好而过多的干预他的想法与行动!我们时刻紧盯孩子的错去指责他,而没有去引导没有和孩子一起成长;父母在孩子的成长期最重要的还是有效陪伴?他去上学,和小伙伴玩耍,去拥抱世界,父母应该去拥抱孩子,询问他今天做了什么,他开心吗,他身边的小伙伴开心吗,遇到问题有没有更好的处理方法,告诉他父母永远支持他,做他的刀枪不入,百毒不侵的后盾!#家庭教育加油站#!通宝能源(600780)09月22日在投资者关系平台上答复了投资者关心的问题;投资者:距离重组公告发布已经过去了9个多月,一点进度也没有吗?还是什么环节出现了问题,又有终止风险;通宝能源董秘:感谢您的关注,鉴于公司战略定位调整为“晋能控股集团有限公司清洁能源的资本运作上市平台”,公司于2022年12月调整经营范围,积极拓展清洁能源业务,目前新建万荣150MW多种复合型光伏发电项目、原平150MW地面光伏项目已取得政府备案文件,正在履行国资立项等审批程序?后续进展请关注公司公告;谢谢!投资者:公司账面有20亿现金,利息收入为什么没在资产表体现?通宝能源董秘:感谢您的关注;公司货币资金余额约20亿元,利息收入在“合并利润表”财务费用项下的“利息收入”列示,谢谢?以上内容由证券之星根据公开信息整理,由算法生成,与本站立场无关;证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请我们!本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策;正在找工作的同学们注意了!通州区教委所属事业单位计划招聘20名教师,报名时间为2023年7月18日9:00至2023年7月20日12:00!想当老师的同学,千万不要错过哦!一、招聘计划二、招聘对象(一)列入国家统一招生计划(不含委培生、定向生)的普通高等院校的2023届毕业生(含两年离校未就业毕业生)?(二)2022年8月1日至2023年7月31日期间取得国(境)外学位并完成教育部门学历认证,且未落实工作单位的具有北京市常住户口的留学回国人员?三、报考条件(一)具有中华人民共和国国籍;(二)遵守宪法和法律,具有良好的品行,身心健康;(三)具有招聘岗位所需的专业理论知识和实践能力;(四)毕业时能如期取得相应学历、学位证书!(五)上岗前应取得相应教师资格证书?(六)报考英语教师岗位的,大学英语四级成绩须达到425分及以上,或雅思成绩达到5.5分及以上,或托福成绩达到75分及以上!(七)具有北京市常住户口;非北京市常住户口毕业生须符合北京市进京落户条件,在校期间无社保缴纳记录,且硕士研究生年龄不超过30岁(1993年1月1日以后出生),博士研究生年龄不超过35岁(1988年1月1日以后出生)!(八)符合招聘岗位规定的其他条件,并符合相关回避原则!四、报名安排本次招聘采取网上报名;报考人员登录“北京市通州区教育系统事业单位公开招聘服务平台”(以下简称“公招平台”)://zΤhaopin.bjtzΤeduyun.进行报名!未经网上报名的人员,不能进入之后的招聘环节;(一)提交报考申请;报名人员在2023年7月18日9:00至2023年7月20日12:00期间登录“公招平台”,提交报考申请?每人限报一个岗位,报名与考试时使用的身份证件必须一致,否则取消报考资格!报名人员在系统中所填信息应真实、完整、准确,报名信息一经网上审查完成后不得修改?(二)查询资格审查结果;报考人员随时登录“公招平台”查询是否通过资格审查;五、考核安排考试采取职业素养考核与专业技能考核相结合的方式进行,按照职业素养考核成绩占40%、专业技能考核成绩占60%的比例计算综合成绩;(一)职业素养考核报名资格审查通过人员进入职业素养考核环节?职业素养考核由区教委统一组织实施,采取线上闭卷方式进行,重点对教育教学政策法规、教师职业道德、教育学、教育心理学及教师应知应会常识等综合知识进行考察!1.笔试科目笔试科目:综合知识测试本次考试不指定辅导用书,不举办也不委托任何机构举办考试辅导培训班!2.笔试确认通过网上资格审查的报考人员,于2023年7月21日9:00至2023年7月22日17:00期间,登录“公招平台”,点击“笔试确认”,未按期确认的报考人员视为自动放弃考试;3.准考证查询请于2023年7月24日登录“公招平台”查询本人准考证?4.笔试系统测试笔试在专业的系统中进行?完成笔试确认的报考人员考前需要进行系统测试,测试安排及须知将在“公招平台”发布,请及时关注并在2023年7月26日前完成测试!5.笔试时间2023年7月28日上午9:00-11:006.成绩查询笔试成绩实行百分制,合格分数线为60分,于笔试结束后10个工作日内在“公招平台”发布!笔试成绩合格的考生,请及时登录“公招平台”打印职业素养考核成绩单?7.专业技能考核入围笔试成绩合格者,由高分到低分排序按照1:5的比例确定各招聘岗位专业技能考核人选;达不到考核比例的岗位,按实际人员入围!(二)资格复审招聘单位对专业技能考核入围人选进行资格复审!资格复审合格进入专业技能考核!不合格或者未按规定时间参加资格复审的,取消专业技能考核资格,根据该岗位笔试合格成绩由高到低排名,顺序依次递补;递补只进行一次!请考生保持报名时所留畅通,如需递补,将通知递补人员;1.资格复审方式(1)资格复审采取线上方式进行(待入职前,将对考生资格复审所需材料原件进行审核)?(2)报考者须提供真实、有效的个人信息及证书、证件等相关材料?(3)资格复审具体安排另行通知;2.资格复审所需材料(1)《应聘人员报名表》(从“公招平台”自行下载,用A4纸打印),其中本人签字处须手签姓名;(2)《职业素养考核成绩单》(从“公招平台”自行下载,用A4纸打印)!(3)户口簿首页✽、本人页✽原件及复印件?户籍如为学校集体户,需出具集体户首页✽复印件(加盖学校户籍管理部门公章)和本人页✽原件及复印件!(4)身份证原件及复印件!(5)学校教务部门盖章的成绩单原件及复印件;(6)学校就业主管部门盖章的《普通高校毕业生就业推荐表》原件及复印件;(7)教师资格证书,能够证明具备招聘岗位所需资格条件的其他材料原件及复印件?(8)英语相关等级证书或成绩单原件及复印件!(9)离校未就业的毕业生需提供学历证书、学位证书原件及复印件;(10)北京生源留学生需提供教育部留学服务中心出具的“国外学历学位认证书”;(11)能够证明具备招聘岗位所需资格条件的其他材料原件及复印件;(三)专业技能考核1.资格复审合格人员进入专业技能考核环节?专业技能考核由区教委统一组织,招聘单位具体实施,通过试讲、答辩相结合的方式对考生进行综合评价!2.专业技能考核成绩实行百分制,合格成绩分数线为60分;3.专业技能考核工作另行安排,请随时关注“公招平台”?六、体检和考察根据综合成绩,按招聘岗位1:1的比例确定体检和考察人选(综合成绩相同,以职业素养考核成绩由高到低排序确定体检和考察人选?综合成绩与职业素养考核成绩都相同,以专业技能考核主考官所打分数由高到低排序确定体检和考察人选)!体检工作由区教委组织实施,参照公务员录用有关体检标准执行!考察工作由招聘单位组织实施,拟从政治思想、道德品质、在校表现等方面对考生进行综合考察!相关要求和时间安排另行通知;无正当理由未按规定参加体检、体检不符合要求、考察不合格的,不予聘用?空缺的岗位由用人单位根据实际情况决定是否从专业技能考核合格人员中递补,并单独通知递补人员参加体检、考察?公示后放弃的,将不再递补?七、公示体检和考察均合格人员确定为拟聘用人选,统一在通州区人民政府网站(://zΤhengfu.bjtzΤh.gov.cn/)进行公示,公示期为7个工作日?公示无异议的按有关规定办理入职手续;八、注意事项(一)考生报名参加此次公开招聘一律视为同意和接受本公告相关条款规定?考生须随时关注“北京市通州区教育系统事业单位公开招聘服务平台”,查看招聘进展!(二)考生务必保持通讯畅通,因通讯不畅导致相关后果的,由考生本人负责?(三)考生应严格按照本公告规定的时间安排参加招聘,因自身原因未能参加下一步程序的,本人承担由此产生的相应后果?(四)考生上交材料不予退还!(五)资格审查贯穿公开招聘全过程?凡提供虚假信息、伪造相关材料者,一经发现,立即取消报考资格,已办理聘用手续者取消聘用,本人承担由此产生的一切后果!(六)聘用人员须服从区教委统一调配,不服从调配者视同自愿放弃聘用资格!入职后在聘用单位服务期不少于5年,具体服务期限由聘用单位根据实际情况确定;(七)如遇国家或本市出台相关政策,通州区教委将适时予以调整!人:金老师、冯老师;:60555095;

尊龙凯时官方登录尊龙凯时官方登录指导