数据点亮未来:重新定义 Ai 和 Crypto 的解码之旅

数据点亮未来:重新定义 Ai 和 Crypto 的解码之旅
数据点亮未来:重新定义 Ai 和 Crypto 的解码之旅

ImageNet数据集的规模是普林斯顿大学助理教授李飞飞的创造,旨在推动计算机视觉领域的发展。这是一个大胆的尝试,比以前创建的任何图像数据集都多两个数量级的22,000个类别。

飞飞的同事们对于构建更好的人工智能系统的答案在于算法创新持怀疑态度,他们质疑她的智慧。虽然遭到怀疑,飞飞和她的小团队开始标记来自搜索引擎的图像,进展缓慢而痛苦。直到一位硕士生向飞飞介绍了亚马逊的Mechanical Turk,她才意识到这正是他们所需要的。

终于,在分散的全球劳动力的帮助下,ImageNet在2009年准备好了。现在轮到研究人员开发算法,利用这个庞大的数据集帮助计算机像人类一样观察世界。然而,在最初的两年里,这些算法几乎没有比ImageNet之前的状态表现得更好。

在飞飞放弃希望的时候,Jia Deng告诉她关于AlexNet的消息。这个新算法在ImageNet上训练,超过了历史上所有的计算机视觉算法。AlexNet使用了一种几乎被抛弃的AI架构,称为”神经网络”,并且超出了飞飞最狂野的预期。

ImageNet结合AlexNet之所以具有历史意义,有几个原因。首先,神经网络的重新引用成为了推动人工智能发展的实际架构。其次,来自多伦多的三位研究人员是最早使用GPU来训练AI模型的人之一。第三,AI行业终于意识到大量数据是高级人工智能的关键要素。

人工智能在我们生活中扮演着越来越重要的角色,但在过去两年里,人工智能的重要性已经从幕后走到了台前。随着关于谁将控制这种智能的竞争升温,对驱动它的数据的需求也在不断升温。

数据是训练大型语言模型的关键资源。大型语言模型的训练受计算、能源和数据三个主要资源的限制。在这三者中,对计算的竞争是最激烈的。训练LLMs需要大量的GPU集群,而供应却远远不足。

能源也是一个关键问题,数据中心运行GPU需要大量的能源。由于数据中心的激增需求给现有电网带来压力,科技公司正在探索替代能源解决方案。

然而,数据是最关键的资源。训练一个最先进的生成模型需要大量的数据。AI公司现在面临的问题是如何获取额外的高质量数据。这涉及法律问题和开放网络的关闭。

AI公司和出版物、创作者之间的法律纠纷越来越多。一些出版物和创作者正在对AI公司提起诉讼,声称侵犯了他们的版权和知识产权。然而,也有一些出版物和创作者与AI公司合作,签署了内容许可协议。

获取额外的高质量数据也是一个挑战,特别是当AI公司面临的问题不仅威胁到未来模型的训练,还威胁到现有模型的有效性时。

在训练AI模型的竞赛中,能源和计算是基本要素,而数据是区分一个模型与另一个模型的关键。互联网市场是连接买家和卖家的方法之一,例如eBay和Upwork等平台。Bagel正在构建一套工具,称为“通用基础设施”,以可靠且保护隐私的方式,使具有高质量和多样性数据的持有者能够与AI公司共享数据。Bagel使用零知识和完全同态加密等密码学技术来实现这一目标。

许多公司掌握着具有极高价值但无法货币化的数据,这些数据可能涉及隐私或竞争问题。Bagel利用密码学的进步,使这些数据集变得有用,并减轻了相关的担忧。

Grass的住宅代理服务可以帮助创建专业数据集。例如,如果你想微调一个模型来提供烹饪建议,你可以要求Grass从Reddit的r/Cooking和r/AskCulinary等子版块中抓取数据。同样,面向旅行的模型创建者可以要求Grass从TripAdvisor论坛抓取数据。

虽然这些数据源不完全是专有的,但它们仍然可以作为其他数据集的有价值补充。Grass还计划使用其网络创建可以由任何客户重复使用的归档数据集。

为了提供基于实时信息的响应,开发人员可以查询并插入信息到基础模型的“上下文窗口”中。上下文窗口是LLM可以处理的输入文本,用于生成响应。开发人员可以使用Grass实时抓取任何网站的功能来获取实时数据。

RAG是所有现代基于LLM的应用程序的核心工作流程,它涉及将文本向量化,然后计算机可以轻松解释、操作、存储和搜索这些数字数组。

Grass计划发布物理硬件节点,为客户提供向量化、低延迟的实时数据,以简化他们的RAG工作流程。

大多数行业建设者预测,上下文级别查询将来会使用大部分资源。模型的训练是一个时间限制的过程,消耗一定数量的资源。而应用程序级别的使用理论上可以有无限的需求。

随着时间推移,LLM的上下文窗口不断扩大。最初的ChatGPT的上下文窗口是32,000个token,而Google的Gemini模型的上下文窗口已经超过一百万个token。这使得上下文窗口可以容纳更多的信息。

这些发展使得上下文窗口可以构建更多的内容。例如,可以将泰勒·斯威夫特的所有歌词或新闻简报的全部存档导入上下文窗口,并要求LLM以类似的风格生成新内容。

技术的伟大之处在于它总能提出解决自身问题的新方法。对于创作者来说,这是一个规模前所未有的机会,他们可以通过AI服务于无限的客户群。

像Grass、Masa和Bagel这样的协议为数据来源提供了公平的基础设施。对于可以在其上构建的内容,人类的想象力是无限的,这是令人兴奋的。

Related Post