生活知识科普课堂生活知识题库及答案解析
信息来源:互联网 发布时间:2024-02-02
作为比照,我们也测试了ChatGPT面临不异成绩的反响,答复如上,能够看到,GPT给出的处理计划也很详尽殷勤,且包罗的问候语许多,声音拟人度较高
作为比照,我们也测试了ChatGPT面临不异成绩的反响,答复如上,能够看到,GPT给出的处理计划也很详尽殷勤,且包罗的问候语许多,声音拟人度较高。但也要吐槽下,因为收集成绩需求等候好久,且简单被打断,对国人很不友爱。
天生是大模子最中心的才能,经由过程对大批的文本停止锻炼,可以天生原始且连接的文本内容,能够缔造性的天生一些文本,是大模子最根底的才能之一。此次测评中,我们从智力游戏、案牍创作、故事续写、文章写作、计划筹谋等五个方面临几个大模子停止评测。上面是他们的表示:
数学才能是大模子使用时的一个很主要的考量身分生活知识问答及答案,特别是很多门生伴侣们,大概会用到大模子来解题。我们分为英文发问的代数题和中文发问的多少题,来测试四个大模子的数学才能。
这也比照出星火的不足为奇,即星火V3.5在答复成绩时,可以表现出高情商和同理心,这使得它不单单是一个智能助手,更像是一个真正了解用户需求的伴侣。
本次横评,我们从言语了解、文本天生、常识问答、逻辑推理、数学才能、代码才能和多模态才能等方面临文心一言、讯飞星火、通义千问和ChatGPT四款大模子做了具体的体验横评。测下来后,在海内大模子中,
而文心一言和通义千问都只撑持一条条语音,而不撑持“及时通话”的形式,这一点已经是ChatGPT的最大卖点之一,现在朝在海内厂商中讯飞星火的全语音交互才能能够说是踌躇不前了。
GPT续写的故事则和通义千问一模一样,有必然对话,固然故事比力简朴,但全部故事立意愈加成熟,且末端更留不足味。
文心一言的谜底准确的同时,给出了标黑重点,另有更进一步的阐发,每一个选项的毛病点都指了出来,倾向于“教师向”,表示优良。
通义千问则是起首答复了订定标定时需求思索的身分,以后给出了8条尺度,每条尺度下辖一个目标大概详细可量化的参考,且也在最初简述了订定这些尺度的办法糊口常识科普教室,还比力知心肠提示发问者“按期回忆、合时调解”。
我们以一人在春运回家路上碰到的艰难,需求获得协助作为场景,和几个大模子睁开了对线)文心一言:
能够看到讯飞星火撑持完成文生图、文生视频,固然不间接撑持天生音频,但撑持对答复动静的语音朗诵,而且在 App 端还能够切换朗诵的主播,因而也能够说是撑持文生语音的才能的生活知识问答及答案。
关于身处职场、体系体例内、大概身居构造义务要职的伴侣们来讲,常常需求制定一些举动计划、评定尺度等,我们以“我是一位房地产贩卖主管,我要给我的三个部属订定KPI。请你给我一点KPI参考”为主题,来停止测试。1)讯飞星火:
在语音交互才能以外,多模态才能开展的地方实践上是“以笔墨情势输入,以XX情势输出”。因而我们对文生图/视频/音频的才能别离做了测评。
故事续写是磨练大模子创作才能的一大目标,我们以典范的“小白兔”、“大灰狼”作为配角开首,看看他们会续写出如何的故事。1)讯飞星火:
文心一言给出了准确谜底。但步调1入网算大学前年级时没有计较高中年级,反而计较了幼儿园年级,让人有所贰言。
通义千问的答复则不敷精确,明显算出来了实践天数多是3652天,但最初给出谜底时又去算了均匀值,让人摸不着思维。
对某个行业常识的了解,能够起到该行业的专业人士的感化,协助对需求理解该行业的人停止常识提高。
其次是文心一言,它的文章严厉根据请求的构造来写,且本身肯定了“新疆”这一所在,文章层次明晰,头绪明白。此中“主体”部门还分红了三项顺次陈说。
GPT给出的谜底长处是:每一个尺度都给出了怎样评判的详细引见,但缺陷在于:没有提到订定这些尺度的身分和办法,但只是给出了评判尺度,没有给出详细目标。
通义千问给出的故事比拟文心一言要愈加成熟,但整体来讲,文章走向很相似于讯飞星火的文章的“章节一”,团体不错,但文章的完好度略显不敷。
通义千问方面,天生的文章一样严厉根据请求的构造,美中不敷的是,“主体”部门本应作为文章的详写部门,其他部门为略写部门,在详略恰当方面做的欠好。
2023年是大模子风潮大起的一年,今朝市情上,文心一言、讯飞星火、通义千问等诸多国产大模子曾经开放内测好久,这些大模子的手艺才能和由此带来的用户体验感均有所差别。海内外洋百模大战之下,哪一个大模子更壮大,在各方面才能表示怎样惹人猎奇。
因为除GPT外,三个大模子均有毛病,或是成果,或是历程,或是成果、历程都错,以是给出评判:
作为认知大模子,言语了解才能险些是大模子与外界交互的根底,我们拔取了语义了解、总结提炼、抗滋扰项才能三个层面来对这一维度停止评判。
通义千问的第二个步调中“拿一个已知是假的金币作为参照物”,但究竟上没法在倒霉用电子秤的条件下肯定某一个金币是假币,因而推导历程存在瑕疵。
固然,讯飞星火也并不是完善,在文本天生和常识问答等部门细分范畴,星火V3.5也表示欠佳,但整体来看能够说是和GPT有来有回的。
通义千问谜底毛病,前三个选项没成绩,第④个选项中明显没有了解题意中“一条腰上的中线)GPT:
为了测试文本天生才能,我们向四个大模子发问了统一个成绩:“你能写出三个关于元宵的谜语么?要包罗‘团聚’二字”。这个成绩的前提有两个:1.关于元宵;2.包罗“团聚”二字。1)讯飞星火:
通义千问的答复则是进一步引见了原题提到的名词,倾向于“百科向”,起到提高的感化,但没有其他毛病选项的阐发。
抗滋扰项才能是考查大模子能否充足“智慧”的主要手腕,我们在这项考查上挖了圈套,实在给出的成绩和前面两个半句并没有联络,看看他们的答复:
能够看到,讯飞星火续写的故事十分具体,形貌活泼形象,以至分红了四个章节,能够算是写了一本短篇小说,并且小说内含寄意,最初一个章节点出了“不应当仅凭表面和传言判定别人”这类原理,能够称得上是一篇优良的寓言故事。
这一搜刮引擎巨子有着密不成分的干系。固然,本次横评所利用的成绩样本有限,各人实践体验时的感触感染能够与我们横评的内容有收支,因而上述地位值也仅供各人参考,实践挑选时,各人仍是要按照本身的感触感染来选用合适本人的 AI 大模子。不管是讯飞星火,仍是文心一言、通义千问,都是国产大模子的第一梯队,在当前的科技合作、财产合作的场面地步下,背后都要增强立异,完成我们在通用野生智能上的追逐与逾越。
让大模子协助敲代码,想必是很多法式员伴侣们求之不得的事,我们对几个大模子停止了代码才能的检测。我们提出了请求,想让四个大模子完成“用python完成:输入一个整数,将其合成质因数,比方输入90,输出90=2*3*3*5”的请求。1)讯飞星火:
多模态才能指的是处置和了解来自差别模态的信息的才能,比方图象、文本、音频和视频等。它触及到信息交融、交互式体验、数据阐发、机械进修开展等多方面生活知识问答及答案,我们对此中最主要的部门语音交互才能和几个大模子由笔墨天生图片、视频、音频的才能睁开了测试。
讯飞星火制定的KPI尺度细则最多,共有12条,详确详细,每个尺度都有引见,可操纵性较强,且还在最初给出了肯定这些目标的办法糊口常识题库及谜底剖析,能够作为不错的模板利用。
接下来是汗青人文常识,我们用““九州”在《书·禹贡》中指冀、( )、青、徐、扬、( )、豫、梁、雍。”这个成绩来磨练。这个成绩比力小众,属于“查材料”型标题问题。
带着如许的猎奇,我们对包罗ChatGPT、文心一言、通义千问和讯飞星火四大国表里支流大模子停止一次综合横评,看看谁的表示更好。测评成果由1、2糊口常识题库及谜底剖析、3、4作为排名,终极综合排名相加越低,暗示该大模子表示越好糊口常识题库及谜底剖析。
起首是讯飞星火,这篇文章层次明晰,概念明白,但并没有根据请求的构造来写,且所在以“XX”来替代,不敷详细。
,星火V3.5作为国产大模子中今朝撑持“及时通话”的佼佼者,曾经表示出了很强的气力生活知识问答及答案。这关于增强星火后续的多模态才能晋级有着十分主要的计谋意义。
讯飞星火的谜底差强者意,此中,“你在二年级时,间隔你上二年级曾经已往了1年”的形貌很奇异,不契合逻辑糊口常识科普教室,大概是想表达其在二年级放学期,究竟上这一题的准确谜底该当是四年级结业,因而说是四年级、五年级皆可,但这个解题历程有待商讨。
案牍创作可以表现大模子对语义的了解和创作才能。事情、进修中,我们都能够操纵大模子的文章天生才能,进修怎样写好对应题材的文章。这里我们以 兵地交融共建 为主题,让四款大模子写一篇消息稿生活知识问答及答案,并给出了详细的构造请求,看看他们的写作才能怎样吧。1)讯飞星火:
能够看到,星火的全语音交互才能其实不体如今一条条语音中,而是由“及时通话”的情势展示出来,经由过程向其发问,星火流畅、顺畅且疾速、精确地给出了本人的处理计划。
星火在作出答复之前,起首答复了“能不克不及的成绩”,因而先答复“固然能够”糊口常识科普教室,然后再做出后续的针对该成绩的答复,谜底也完善契合题意生活知识问答及答案,但美中不敷的是没有进一步的阐发。
别的,该“通话界面”另有打断和停息功用,停息后也可规复发问,且可随时切换到笔墨形式,看到通话全程的笔墨版。
使人长远一亮的是,答复成绩时,星火V3.5也会随时带着“嗯……”、“额……”等语气词,天然且不显高耸,不止云云,星火V3.5还会时而说出“就是”、“这个”等白话化的帮助词,即使比照ChatGPT的“Ember”、“Juniper”,在拟人度和实在度方面也几无抉剔的地方。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

