科技公司正在将重点从建立最大的语言模型(LLM)转变为开发较小的语言模型(SLM) ,这些语言模型(SLM)可以匹配甚至超越它们 。
Meta的Llama 3(4000亿个参数),OpenAi&rsquo&rsquo&rsquo(1750亿个参数)和GPT-4(估计1.8万亿个参数)是著名的模型,而Microsoft的Phi-3家族范围为380亿至140亿到140亿到140亿到140亿个参数。
具有更少参数的模型似乎是一种降级 ,但是SLM的吸引力是可以理解的。他们消耗的精力减少,可以在智能手机和笔记本电脑等设备上进行本地运行,并且非常适合不起昂贵的硬件设置的小型企业和实验室 。
你可能喜欢
您的AI ,您的规则:为什么BYO-LLM“带上自己的LLM ”是未来
Openai继续在开发人员中占主导地位 - 但是情况正在快速变化
“灾难性过度训练”可能会损害大型语言AI模型,这些模型是为了培训而受到更多数据培训的
大卫vs.歌利亚
正如IEEE Spectrum报道的那样,“ SLM的兴起是在LLM之间的性能差距迅速缩小的时候,技术公司希望偏离标准缩放法律 ,并探索其他途径以进行性能升级。”
在Microsoft,Phi-3-Mini进行的一轮测试中,这家技术巨头最小的型号具有38亿个参数 ,在某些领域与Mixtral(8 x 70亿)和GPT-3.5进行了竞争,尽管足够小,足以适合手机。它的成功归功于用于培训的数据集 ,该数据集由“大量过滤的公开可用的Web数据和合成数据组成 ” 。
尽管SLMS具有类似的语言理解和推理水平,但它们仍然受到某些任务的规模的限制,并且可以存储太多的“事实”知识。这是可以通过将SLM与在线搜索引擎相结合来解决的问题。
IEEE Spectrum&rsquo的Shubham Agarwal将SLM与孩子们学习语言进行了比较 ,并说:“到13岁时,他们接触到约1亿个单词,并且在语言上的聊天机器人比聊天机器人更好 ,并且只能访问0.01%的数据。”尽管正如阿加瓦尔(Agarwal)指出的那样,“没人知道是什么使人类变得更加有效, ”苏黎世Eth Eth Zurich的计算机科学研究人员Alex Warstadt提出:“在小尺度上,逆向工程有效的人类式学习可能会导致巨大的改进 ,而扩大到LLM量表 。”
你是专业人士吗?订阅我们的新闻通讯
注册techradar Pro新闻通讯,以获取您的业务成功所需的所有首选,意见 ,功能和指导!取得成功!请与我联系我们的其他未来品牌的新闻,并代表我们值得信赖的合作伙伴或Sponsorsby提交您的信息,您同意您同意的条款和隐私政策 ,并年龄在16岁或超过16岁之间。
Techradar Pro的更多信息
中国基于XI Jingping的LLM虽然Trussia最大的科技公司刚刚发布了免费的AI Toolllm服务,这是由希望以私人信息出售的黑客袭击
正文
“没有人知道是什么使人类变得更加有效”:基于同性恋者的小语言模型可以帮助解释我们如何学习和提高AI效率—无论好坏
文章最后更新时间2025年06月14日,若文章内容或图片失效,请留言反馈!
-- 展开阅读全文 --