登录注册
Ai快速发展,将引爆向量数据库应用
有赚就出
老韭菜
2023-05-07 15:03:10

📌 原文链接https://zhuanlan.zhihu.com/p/620968310
🕘 收藏时间:2023年05月07日
📂 文档目录:我的文档/应用/微信收藏
📑 本文档由金山文档【网页转文档】一键生成
本文原文作者Alex Woodie,中文版由博雅数智翻译。

博雅数智北京大数据研究院孵化企业。数智化人才培养引领者。自主研发爱数科(iDataScience)、爱数课(iDataCourse)和数据实验楼(iDataCoding)三款教学科研和实训产品。开展数智人才推荐、培训等业务。
---

向量数据库(Vector databases)几年前就出现了,它有助于为一种新的搜索引擎提供动力,这种搜索引擎基于神经网络而不是关键词。像家得宝(Home Depot)这样的公司使用这项新兴技术极大地改善了搜索体验。但现在向量数据库在帮助组织部署聊天机器人(chatbots)和其他基于大语言模型(Large Language Models,LLM)的应用方面发挥了新的作用。

向量数据库是一种新型数据库,在机器学习和人工智能领域越来越流行。向量数据库不同于专门用于按行和列存储表格数据的传统的关系数据库(如PostgreSQL)。它们也明显不同于将数据存储在JSON文档中NoSQL数据库(如MongoDB)。


向量数据库是为存储和检索一种特定类型的数据而设计的:向量嵌入(vector embeddings)。

向量是表示物体各种特征的数值数组。作为机器学习过程中训练阶段的输出,向量嵌入是训练数据的提取表示,它们本质上是在机器学习过程中推理阶段运行新数据的过滤器。

向量数据库的第一个大的应用场景是为下一代搜索引擎和产品推荐系统提供动力。家得宝通过向量搜索技术增强传统的关键词搜索,极大地提高了其网站搜索引擎的准确性和可用性。向量搜索使家得宝能够利用机器学习的力量来推断用户的意图,而不需要完美的关键词匹配(或一个充满常见拼写错误的200万产品数据库)。

然而,现在向量数据库发现自己正处于技术领域最热门的大语言模型(LLM)工作负载中,如OpenAI的GPT-4、脸书的LLaMA和谷歌的LaMDA。

在LLM部署中,向量数据库可用于存储LLM训练产生的向量嵌入。通过存储数十亿个表示LLM的大量训练的向量嵌入,向量数据库执行至关重要的相似性搜索,以找到用户提示(他或她正在问的问题)和特定向量嵌入之间的最佳匹配。

虽然关系数据库和NoSQL数据库已经能够存储向量嵌入,但它们最初都不是为存储和服务这种类型的数据而设计的。这给从一开始就设计用于管理向量嵌入的原生向量数据库带来了一定的优势,例如Pinecone和Zilliz(以及墨奇科技,译者注)等公司的向量数据库。

Zilliz是Milvus的主要开发者,Milvus是2019年首次发布的开源向量数据库。根据Milvus网站的说法,该数据库是以现代云的方式开发的,可以提供“万亿向量数据集上的毫秒搜索”。

上周,在英伟达的GPU技术大会上,Zilliz宣布了向量数据库Milvus 2.3的最新发布。该公司表示,当与英伟达GPU适配时,Milvus 2.3的运行速度可以比Milvus 2.0快10倍。向量数据库也可以在GPU和CPU的混合上运行,据说这是第一次。

英伟达还宣布了其RAFT(可重复使用的加速函数和工具)图形加速库与Milvus之间的新集成。Nvidia首席执行官黄仁勋(Jensen Huang)在GTC主题演讲中谈到了向量数据库的重要性。

“推荐系统使用向量数据库来存储、索引、搜索和检索非结构化数据的大量数据集,”Huang说。“向量数据库的一个新的重要场景是大语言模型,用于检索特定领域或专有事实,这些事实可以在文本生成过程中查询……向量数据库对于构建专有大语言模型的组织至关重要。”

Pinecone营销副总裁Greg Kogan表示,那些满足于通过科技巨头公开的API和预训练LLM的组织也可以使用向量数据库。

像ChatGPT这样的LLM,经过对来自互联网的大量数据的训练,已经证明自己在对问题做出适当回应方面非常出色(尽管并不完美)。许多组织已经开始投资于指示工程(prompt engineering)工具和技术,以使LLM更好地适用于他们的特定场景。

GPT-4的用户可以用多达32000个“tokens”(单词或单词片段)指示模型,这些token大约相当于50页的文本。这远远超过,可以处理大约3000个token的GPT-3。Kogan表示,虽然token对于指示工程至关重要,但向量数据库在为LLM提供一种形式的持久性方面也发挥着重要作用。

Kogan说:“现在你可以容纳50页的上下文,这非常有用。但这仍然是你在一家公司内总上下文的一小部分”。“你甚至可能不想填满整个上下文窗口,因为这样会付出延迟和成本代价。

他继续说道:“因此,公司需要的是长期记忆,来对模型进行补充。”“模型能够理解和解释语言,但它需要与存储公司信息的长期记忆相结合,这就是向量数据库。”

Kogan表示,Pinecone目前约有一半的客户参与了LLM。通过在向量数据库中填充表示其整个知识库的向量嵌入,无论是零售库存还是公司数据,Pinecone客户都可以为其专有信息获得长期记忆区域。

使用Pinecone作为长期内存,数据流的工作方式略有不同。Kogan表示,客户的问题不是直接提交给ChatGPT(或其他LLM),而是首先路由到向量数据库,该数据库将检索该查询的前10或15个最相关的文档。然后,向量数据库将这些支持文档与用户的原始问题捆绑在一起,将完整的包作为提示提交给LLM,LLM将返回答案。

Kogan说,这种方法的结果优于盲目地问ChatGPT问题,也有助于解决LLM令人讨厌的幻觉问题。他说:“我们知道这是一种非常有效的工作流程,我们也在努力教育其他人。”
---

在国内,墨奇科技开创性布局向量数据库,提出了专门为向量计算开发的高性能数据库MyScale[1]。MyScale具备许多优秀特性使之更能胜任 AI 场景的非结构化数据分析。一方面,在金融、自动驾驶、NLP 等大面积深度融合模型能力的业务场景中,Myscale 能够通过更强的查询性能、更好的结构化和非结构化数据联合查询能力,实现已有业务中计算成本的显著下降,或是带来全新数据→模型→数据生产闭环。

另一方面,结合 LLM 相关的上下游组件,MyScale 也能为指示工程( prompt engineering ),搜索 和生成类任务提供更灵活、更高效的数据底座,从而催生一系列交互体感和业务搭建逻辑焕然一新的产品应用。
参考资料

[1]
MyScale:https://myscale.com/

发布于 2023-04-11 02:18・IP 属地浙江

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
云创数据
S
蓝色光标
S
昆仑万维
工分
1.34
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-05-07 15:23
    向量数据库:  每日互动、拓尔思、云创数据、创意信息
    2
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-07 16:41
    新题材
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-07 16:41
    感谢分享
    1
    0
    打赏
    回复
    投诉
  • 1
前往