数据巨头Databricks让生成式AI平民化 让大模型融入工作的每个环节 (数据巨头们如何)

数据巨头Databricks让生成式AI平民化 让大模型融入工作的每个环节 (数据巨头们如何)

Databricks CEO Ali Ghodsi 曾表达过这样的观点:Databricks 的目标是实现数据普惠和 AI 普惠,数据普惠使得数据能够触达企业内的每一名员工,而 AI 普惠则将人工智能引入每一个产品中。他强调“每个组织都应该从 AI 革命中获益,并更好地掌控数据的使用方式。”在过去,Databricks 在 AI 领域积累了大量经验,如今在大模型的潮流下,他们不仅推出了自家的开源大模型 Dolly 2.0,还以 13 亿美元的价格收购了生成式 AI 公司 MosaicML,迅速强化了大模型方面的实力。最近,Databricks 发布了一系列创新产品,例如 Lakehouse IQ、AI Gateway、Unity Catalog 等。作为大数据领域的领军企业,我们相信>

采访嘉宾简介:李潇 , target="_blank">“Introducing English as the New Programming Language for Apache Spark”的演讲

李潇: Spark 其实是为 AI 而生的。最初是Matei Zaharia为了 Netflix 的机器学习竞赛而创建了 Spark 这个分布式数据处理系统。在十年前,Spark 刚进入 ASF,就已经集成了机器学习、离线分析、流处理和图处理的功能。Lakehouse 也是在十年前就已经有了雏形。在过去十年中,整个社区共同努力,使 Apache Spark™ 发展成为一个可以在单节点机器或集群上执行数据工程、数据科学和机器学习的多语言引擎。

Databricks 的使命,其实从创建开始一直到现在,都是非常一致的。Databricks 是由一群 Spark 的原创人于 2013 年创建的公司,专注于构建智能湖仓(Lakehouse)。虽然最初没有明确使用 Lakehouse 这一术语,但>

李潇: Databricks 坚信开放与合作的力量。我们预见的未来,既包括适应性广泛的通用大模型,也涵盖了具有独特优势的专业模型。数据所有权,训练和服务成本将会是很大的挑战。为此,我们构建了服务平台,助力企业用户便捷地训练、微调和管理这些模型。Dolly 的诞生,更是我们为展示如何用小型的专有数据集调优大模型所付出的努力。而 MosaicML 是又这方面的领军者。我们的用户可通过 MosaicML 创建私有的 ChatGPT,以较少的成本实现更大的价值。MosaicML 的分布式训练服务允许客户不与第三方共享数据、模型和推理,仅需数日,就能建立自己的专属大语言模型。

我们深知大模型的好坏在于数据,其中,数据的质量与模型的成果息息相关。身为 Lakehouse 服务商,我们致力于帮助客户高效整合、清洗并挖掘其核心数据资产。对 MosaicML 收购恰恰是 1+1 > 2。高质量的数据使 MosaicML 能打造出色的私有 LLM(Large Language Model),而这样的 LLM 又进一步挖掘了数据的潜在价值,推动 AI 真正服务于每一位客户,这正是我们所追求的“AI 普惠”。

李潇: 即使对于经验丰富的 Apache Spark 用户,他们也可能仅仅熟悉其中的一小部分 API 和参数,因为 PySpark 的功能之繁多,有上千个 API。而随着 ChatGPT 的兴起,我们惊喜地发现它对 PySpark 有着深入的了解。这应归功于 Spark 社区在过去十年中的辛勤努力,他们提供了众多的 API 文档、开源项目、问题解答和教育资源。于是乎,我们启动了 English SDK 这个项目,我们将 Spark Committers 的专业知识注入,通过 LLM,使用户可以只通过简单的英文指令获得所需结果,而不再需要自己录入复杂的代码。通过这种方式,我们降低了编程的入门难度,简化了学习过程。English SDK 的初衷是扩大 Spark 的应用范围,进一步推动这个已经非常成功的项目。

至于 English SDK 的准确率,它高度依赖于 LLM 的性能。例如,GPT-4 在这方面的表现就非常出色。我们在>

李潇: 面对如今日新月异的大模型行业,自从 ChatGPT 等先进技术横空出世后,数据和 AI 行业的领导者都意识到了“奇点”出现,大家都争先为用户提供大模型服务。所以,今天的特色很可能明天就会成为标配。

李潇: 这个问题非常大,也很难回答。在过去十年,Databricks 在大数据和 AI 生态中一直扮演的角色应该是创新的引领者、开源社区的坚定支持者和行业进步的推动者。

Databricks 的创始团队是 Apache Spark 的原创者,而现在,Spark 已经成为了全球最受欢迎的大数据处理框架,每个月都有超过十亿次的下载。Databricks 始终走在技术创新的前沿,我们率先在 Spark 中引入了批流一体框架,推出了 Lakehouse 架构,并在 Delta 3.0 中为开源存储层设计了创新的通用格式。这些成果也屡获大奖,如 Apache Spark 和 Photon 向量化引擎在顶级数据库会议 SIGMOD 中获得最佳系统和最佳论文奖,并刷新了 TPC-DS 的纪录。

我们很高兴看到整个行业紧随我们的创新步伐,更多的厂商宣布提供 Lakehouse 产品,这无疑也在侧面说明我们在推动着整个行业的飞速进步。为了加快行业的共同进步,我们 target="_blank">),我们详细介绍了如何使用 MLflow AI Gateway 进行集中式的模型管理、凭证管理和速度限制。我们坚信,未来应是开放的,而不是封闭的。展望前方,我们期待持续在开源社区深耕,为大型模型的发展持续贡献我们的力量。

李潇: 当我们讨论如何实现降本增效时,不得不提到 MosaicML。他们持续追求的一个核心使命就是降低模型训练的整体成本。以他们最新发布的 MPT-30B 大模型为例,这个模型引入了 Alibi 等先进技术以延长 context window,并利用 FlashAttention 技术有效提高了 GPU 在训练和推理过程中的工作效率,进而显著削减了成本。

值得注意的是,在多 GPU 上预训练大模型时,经常会遇到软硬件错误,若不及时处理,这些错误很容易导致昂贵的资源浪费。而 MosaicML 在这方面展现出卓越的实力。他们实施了一套主动监管系统,能够即时检测到软硬件错误,并自动修复这些出现的问题。这种自动化的错误管理机制大大减少了不必要的成本浪费,确保了训练过程的高效进行。

在模型规模上,MPT-30B 经过深思熟虑的设计,使其 30B 的参数规模能够优化到可在单一 GPU 上部署的程度,例如可以在 1x NVIDIA A100-80GB 上以 16-bit 精度运行,或在 1x NVIDIA A100-40GB 上以 8-bit 精度运行。而与此相对照,其他的 LLMs,如 Falcon-40B,尽管参数量更大,但却无法在单块 GPU 上流畅运行,这常常意味着需要至少两块或更多的 GPUs,自然也就增加了推理系统的基础开销。

除此之外,选择和优化硬件同样是一项关键任务。据我们所知,MPT-30B 是首个在 NVIDIA H100 GPUs 上训练的模型,与 A100 相比,它不仅运行速度更快,而且具有更高的性价比。

最值得一提的是,通过 MosaicML 的技术,用户只需要短短不到两周的时间,就能从零开始训练出自己的 MPT-30B 模型。

李潇: 我们在 CEO Ali Ghodsi 的号召下,全公司今年年初就全面拥抱 LLM。最开始,我们有一个口头禅:“今天你用了 LLM 吗?”到后来, LLM 逐渐就已融入到了我们的工作的每个环节里,无论是编写面向用户的错误提示,还是构建测试用例。在>

当然,除了 LLM,AI 在我们众多的产品设计中都发挥了关键作用。例如,我们最新公布的 predictive I/O,它可以加速读取数据的速度,缩短扫描和读取数据所需的时间。同时,它还可以加速数据在更新、删除和合并时的处理速度,降低在这些操作中需要重写的数据量。

李潇: GPT 等大模型成功地凸显了数据质量对于模型性能的重要性。它不仅进一步加强了我们对大数据的价值认知,而且提高了我们对数据采集、清洗与处理的关注度。这无疑刺激了大数据解决方案的需求。同时,随着大模型的广泛应用,如何有效、高效地处理数据,如何优化数据处理的成本,都成为了亟待解决的问题。此外,数据治理、数据安全和隐私保护也日益受到重视,因为不恰当的数据管理容易导致敏感信息在模型中的泄露。

谈及未来的人机交互,我预期会有重大的变革。这个不单单影响大数据行业的软件,应该影响了所有的产品。我相信,大模型将很快成为行业的标准。但这也意味着那些用户不太熟悉的 API 和功能可能会遭遇使用难题。因为如果它们的使用量少,相应的文档和示例也会变得稀少,这将导致这些信息难以被纳入到大模型的训练数据中,使模型难以提供精确的建议。这种恶性循环对闭源产品和小型社区都构成了巨大的挑战。

李潇: 大模型正在对各个行业带来深刻的影响,当然这种影响不仅限于大数据行业,但我们首先承认,大数据行业是最大的受益者之一。接下来我将以三个职业为例来详细说明。

首先,看数据工程师。我们可以将大模型比作一座摩天大楼,而数据则是其不可或缺的建筑材料。随着这种“摩天大楼”大量兴建,对数据的需求和质量标准也随之增加。因此,数据工程师需要掌握处理更加复杂的数据流的技能,确保数据既高质量又能快速流转。

其次,是数据科学家。在大模型的时代,通用模型和专用模型层出不穷,选择合适的模型已经成为他们日常工作中的一大挑战。根据实际需求,如成本与性能的权衡,可能需要为大模型的使用投入大量资金,这对于数据科学家来说是一个全新的考量维度。

最后,让我们看看数据分析师。随着大模型的进步,一些基础的数据分析工作可能会被自动化取代。但这并不意味着数据分析师的工作将变得不重要,相反,他们需要更加深入地理解特定领域的业务逻辑,用于解决更为复杂的问题,并提供有洞察力的分析。

实际上,随着大模型的普及,每个人都有可能成为“数据分析师”。以我们最近在>

以「启航·AIGC 软件工程变革」为主题的 QCon 全球软件开发大会·北京站将于 9 月 3-5 日在北京•富力万丽酒店举办,此次大会策划了从 BI 到 BI+AI,新计算范式下的大数据平台、大前端新场景探索、大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构计算、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近 30 个精彩专题。

咨询购票优惠信息可联系票务经理 18514549229(微信同手机号)。点击 链接 即可查看 QCon 北京站完整日程,期待与各位开发者现场交流。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。