下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

向量数据库适于AI大模型非结构化场景,但市场需求尚处于初期,中远期规模还不到夸张

23-05-06 10:46 463次浏览
梦想小韭菜
+关注
博主要求身份验证
登录用户ID:
广发计算机刘雪峰团队|向量数据库适于AI大模型非结构化场景,但市场需求尚处于初期,中远期规模还不到夸张之时

Vector database(向量数据库)是一种专门用来处理向量嵌入的数据库。它通过比较值并找到彼此相似的值来索引向量,以便于搜索和检索。与其他传统数据库不同,它能够处理复杂数据,如文档、图像、视频和网页上的纯文本等非结构化数据,使用户能够搜索未标记的内容,这对于扩展大语言模型,比如ChatGPT所使用的GPT-4的用例较为重要。

大语言模型的普遍存在的问题是,训练数据的丰富程度不足和即时性不够会影响模型的通用化效果,造成其“一本正经的胡说八道”,这限制了它在垂直领域的实用性。虽然此前通过人类反馈强化学机制(RLHF)来让模型对错误的输出结果进行调整,但这种方法并不能彻底解决大语言模型的问题。

向量数据库有望有效提升AI大模型的通用化效果。生成式AI大模型的训练数据包含大量的非结构化数据。数据类型的变化和数据量的变化,催生了向量数据库的需求。向量数据库通过向量嵌入的方式,把来源权威,可信的非结构化数据转换成向量,并储存到数据库中,就能帮助大语言模型具有“长期记忆”,并且减少模型生成的内容出错的可能性。

另一方面,向量数据库的市场规模较小。在过去AI模型训练的数据量较小,数据类型单一的情况下,向量数据库可应用的场景较小。自2017年Transformer模型推出后,各科技厂商开始大语言模型的探索,对于向量数据库的需求才开始形成规模。未来随着生成式AI大模型开发量和使用量的增长,向量数据库的应用有望快速增长。

向量数据库是典型的大数据产品。向量数据库存储和处理的数据量达到千亿条,数据类型涵盖图像、文字、音频等多种,并且对高并发场景有较好的表现。其具备对于海量、异构、多源数据的处理能力,是典型的大数据产品。
打开淘股吧APP
0
评论(0)
收藏
展开
热门 最新
提交