近期,谷歌的创始人谢尔盖·布林参与了知名播客主持人洛根的对话。在这次访谈中,他们讨论了谷歌I/O大会的最新进展和谷歌在人工智能领域的发展全貌。布林表示,这一系列的新产品发布十分吸引人,其中不乏一些出乎他预料的亮点,比如谷歌搜索中的虚拟试穿功能,受到了广泛的欢迎。尽管如此,为了顺利实现所有已公布的功能,还有很多工作需要完成。
布林指出,在审视人工智能发展历程的广阔画卷中,我们发现现今的进步与昔日对奇点的理性预测大相径庭,人工智能的发展路径令人称奇,逗号,令人称奇。
语言模型现已成为人工智能领域发展的核心动力,而这一现象在十五年前尚不明显,尤其是当时的研究重点还主要集中于物理学的根本原理。
思维模型展现出的令人惊叹的可解释性,使得我们能够深入了解其推理的每一个步骤,从安全的角度来看,这无疑具有极其重要的正面影响。
在架构层面,布林观察到众多模型之间存在着高度相似性,即便是那些表面上看似迥异的模型,比如视频传播模型的训练流程也在持续进步。随着训练进入后期阶段——包括微调和强化学习等任务——这些阶段在整体流程中的比重持续上升,同时引入了诸如工具应用等新功能,从而使得模型的能力得到了显著增强。
在探讨推理能力的拓展,尤其是深度思考策略方面,布林表示,谷歌的宏伟目标是使模型具备更持久的思考能力——长达数小时、数日乃至数月,以便对复杂问题提供更优的解决方案。相较于克服实现长上下文输入的难题,谷歌在此方面始终在努力突破。从短期任务训练模型的推广,到期待它们在短短几天内创造出新成果,这一巨大差距正在被逐步缩小。人工智能在当前阶段明显展现了评估问题的广泛挑战性,这一难度既适用于人类,也适用于人工智能自身。
最终,布林对谷歌的定位及其创新速度进行了深入思考。他坚信,一家公司需不断进行自我革新,尽管这一过程充满挑战。然而,凭借在处理大规模数据、谷歌大脑以及相关领域的丰富经验,谷歌已经为人工智能的转型做好了全面准备。他对当前的发展速度持乐观态度,并阐述了谷歌在大型模型领域从追赶者变为领跑者的缘由。他特别指出,相较于2024年的超越目标,2025年已经实现了显著的进步。2.5 Pro的推出标志着一次质的飞跃,在众多排行榜中依然稳居首位。而近期发布的2.5 Flash也被广泛认为是一款速度极快、性能卓越的型号,在排行榜上紧随其后,位列第二。
以下是访谈原文:
主持人:各位朋友,欢迎你们的到来。今天我们有一场I/O特别活动。谢尔盖·布林,我们正就谷歌的话题进行探讨。非常感谢您在百忙之中抽出时间与我们交流。
谢尔盖·布林:感谢你的帮助,洛根。我们不仅在线上聊天空间和各类产品中交流,而且现实生活中一同外出游玩也倍感快乐。
主持人:确实如此,我在加州的时光总是充满乐趣。昨天和今天,我与大家共度了许多时光。面对面交流,我深切体会到了人工智能发展的温馨与人情味。这确实十分有趣。在此,我们身处I/O大会,我觉得全球范围内的普遍情绪,以及我们团队内部的情绪,都达到了一个巅峰。这一天,对我们来说意义非凡。我们所有产品的模型都实现了显著的提升。你对此有何见解?你又有何感受?显而易见,我们面临诸多任务亟待完成,然而,你的关注点究竟在何处?
谢尔·盖布林表示赞同,他认为这确实是一连串卓越的发布。坦白讲,我可能连其中的30%都不甚了解。由于时间紧迫,我对这方面的知识掌握颇深,以至于连虚拟适配都不甚明了,比如谷歌搜索中的那些产品。我并未意识到我们正在推出那样的功能。许多事情都让我感到意外。
反响十分积极。然而,仍有众多事宜待人们投入时间和精力去深入研究和领悟。目前,我们正全力投入到交付每一项发布内容的进程中。这无疑是一项耗竭体力的工作,目的在于确保一切运作顺畅,让用户能够顺利完成注册,并充分利用这些新增功能。在我看来,对于很多人来说,I/O 只是一个庞大工作量的起点。对于某些团队而言,这标志着终点;而对另一些队伍来说,这则象征着起点。
的核心文本模型
主持人提到,我们新推出了众多发布。对于你的关注焦点,我很好奇,它是否与深度思维团队所重视的相仿,比如在VO和等领域。谷歌近期也推出了一套完整的生成媒体模型,并刚刚发布了音乐模型。那么,你是如何界定自己的工作领域,是专注于生成媒体,还是主要关注其他方面呢?
谢尔盖·布林表示,他主要聚焦于核心文本模型,这一领域之所以受到他的重视,是因为他坚信这能助力我们更深入地理解和探索人工智能的科学本质。这一领域是他关注的焦点。此外,生成媒体也给他留下了深刻的印象,他形容其如同超人的能力一般令人震撼。
借助文本模型,面对某些数学难题,尽管我努力尝试,或许仍能找到答案,但常常遭遇错误或是类似问题。偶尔,我还会偶然发现一些代码,尽管这类情况日渐减少,实际上,我现在主要依赖这些工具来完成编码和数学计算等任务。尽管如此,这些活动依旧在人类的认知和能力范畴之内。考虑到我的艺术才能,我根本无法创作出图像或视频作品。我的观点是,若我成为了一名专家,诸如摄像师、3D渲染师或是特效师,我能够预见到这将是一项繁重的工作。这需要我们付出整整一个月的辛勤努力,而最终所收获的成果,却可能只是我短短几分钟内就能取得的。显而易见,这样的成果在视觉上极具吸引力,足以吸引你的目光。你几乎无法抗拒它的魅力。
和 Veo 3 中的原生音频
主持人:那带有VO的音频片段,让我仿佛回到了过去。我个人觉得制作视频很出色,不过对我来说总感觉有些过于花哨。记得昨天在舞台上看到V3中的音频时,那瞬间对我来说就像是亲身参与制作一般。实际上,很多人都能做到这一点。从历史的角度来看,虽然我们可以生成视频,但关键在于,比如音频是从哪里来的,如何将所有内容同步?你能够促使人们乐于交谈,并且对话效果出色,这确实让我感到非常惊讶。
谢尔盖·布林表示认同,称其确实是一位坚定的支持者。他个人倾向于重视视觉效果。对于音频,他并不特别热衷。然而,近年来,尤其是谷歌眼镜这类产品,他发现,加入声音后,它为声音增添了极大的丰富性。在他看来,增加音频的效果甚至优于3D效果。
若你曾体验过这款大型可穿戴装置,定会对其中的3D元素感到新奇。然而,不论怎样,一旦音频功能启动,你将体验到一种难以置信的感知转变。我深知,我见证了模型在过去一个月或两个月里的训练过程,我从一处移动到另一处,只觉得这一切都变得截然不同。
主持人:确实,观察这些功能是如何相互结合的非常有趣,这显然与某些技术存在诸多共通之处,例如模型。显而易见,我们在I/O和VO的模型中均已实现了音频的原始支持。今晨,我与Tulsi有过交流,正如这些类似的技术突破,它们之间究竟有何差异呢?从技术层面分析,这看似与原有技术大相径庭,然而令人兴奋的是,我们拥有其他路径来实现这一创新举措。在理想状态下,所有这些进展都能以某种形式追溯至 。
谢尔盖·布林表示认同,他指出我们历经漫长的努力才在平台上推出了原生音频功能。这一功能已经与我们相伴一年。在基础模型中,我们不允许使用经过至少一年训练的音频素材。我常常觉得,我们面临的事情实在太多。比如,原生音频的输入和输出功能虽然早已存在,但要让它们完美运行,我认为需要相当长的时间。然而,现在这一功能终于问世了。我认为这样做并不可取,正如你所言,VO的运作方式与此相似。我坚信,音频同样是通过某种途径得以实现的,这和视频的传播方式并无二致。
实际上,在训练期间,你能够亲眼目睹它所制作的视频。起初,它的状态仅达到百分之几,形态并不规范,文字部分甚至有些像描绘战争的内容。然而,随着过程的推进,它逐渐成形并不断完善,直至训练结束,最终呈现出了你现在所看到的成果。我坚信,这一切都是基于音频生成的,而这背后依托的是一项极为先进的技术。正如您所了解,我们已进行了文本的发送,以实施初步的小范围测试。这对我来说是值得庆幸的,因为我们的团队中有一群机器学习专家,他们能够并行在多种模式下研究多样化的基础技术。
模型训练运行的见解
主持人:确实,截至目前,实验的成效显现出极大的潜力。我期待模型能继续进步,确保所有功能都能完美协同,因为展示效果显著。我们虽在镜头之外交流,但演示效果确实出色。因此,我们期望其性能能够得到充分体现,从这一角度出发,所有环节似乎都能正常运行。然而,正如你之前所提到的,这就像是在观察训练过程一般。我尚未目睹其具体形态。这所谓的观看训练跑,究竟有何含义?
谢尔盖·布林提到,或许大家已经注意到了我们的文本模型,我们能够对中间的检查点进行测试,比如在训练的10%、20%等阶段。在这些时刻,模型的表现较为薄弱,但通过观察它们,我们能够把握发展脉络。因此,通常情况下,尤其是当进行大规模的训练运行时,我们会投入大量计算资源,并对模型抱有较高期望,我们会采取多种方法,在训练过程中反复对其进行测试。因此,你对它的流行走向会有一个相当深刻的认识。这一点对于文本型模型来说是适用的,同样,对于整合了视觉对象识别功能的视频模型来说也是适用的。这些模型都会产生一系列中间结果,你可以进行查看。一旦你真正投入其中,你很可能会对它们进行检验,因为你既对它可能带来的结果感到紧张,又充满期待。
当前 AI 发展与过去预期的对比
当时我正聆听着(谷歌首席执行官)与Dave的交谈,他们提及,早在15年前,你与Larry(谷歌另一位创始人拉里·佩奇)以及他就开始探讨,亦如同谷歌团队所讨论的那样,关于未来人工智能的景象将会是怎样的。这与你们当时所讨论的内容有着极高的相似度。我十分好奇,如今这一刻,有哪些事情让你感到尤为惊讶?若你对搜索或技术领域感兴趣,我们可将这些知识融入产品之中;亦或,我们可以探究那些令人称奇的现象,以及那些几乎如同你所预期般将要发生的事情。
谢尔盖·布林表示肯定,从智力层面分析,人们能够借助奇点进行推论。知名人士雷·库兹韦尔(Ray)就曾进行过此类尝试,不过那已是数十年前的事情。我已不记得他具体提到的是哪一天,但那是在2037年,这一点我记不清了。他依据自己的推论设定了某些时间点。如今看来,这些预测可能略显保守,我并不确定,但通过理性思考,我们是可以进行推理的。我觉得目睹其发生的感觉截然不同。谈及十五年前的事,我并不认为你在戏谑。你确实在谈论那件事,但你的语气仿佛在构想科幻世界的未来。然而,这又似乎更像是一场游戏,你只是在和同样对此感兴趣的人闲聊。我觉得这种现象颇为有趣。然而,正如我之前所述,亲眼见证其真正启动,那种感受确实是截然不同的。
当然,事情的发展过程颇为出人意料。我这里可以为你举一个例子。语言模型似乎代表了人工智能当前的发展路径。我想,在15年前,你可能还不太了解这一点。实际上,在过去乃至现在,我们已经在这一物理基础上投入了大量的研究精力,拥有一个物理世界作为支撑显得尤为重要,而且我们显然正在进行相关的实验探索。这一现象尚未充分显现,而且它带来了一种特别的附加效果,尤其是对思维模型来说,它们展现出了令人瞩目的可理解性。你几乎可以洞察到这些思维模型之一是如何形成观点以及如何得出结论的。然而,若没有丰富的工具,你将无法对模型的权重进行审查,并从中尝试推断出某些信息。然而,您应当明白,其中的众多推论均以极其通俗易懂的词汇进行阐述。
因此,我深信这在十五年前你恐怕难以预料。这无疑是一个令人惊喜的发现,我坚信它能够极大地抚慰人心。我并非主张我们对此视而不见,然而从保障安全的视角出发,这些事物在特定程度上确实传达了它们的意愿,我认为这无疑是一个显著的优点。诚然,有些研究探讨了他们如何撒谎等问题,但在我看来,其影响相对有限。
模型训练的演变
主持人:在观察模型从处理文本输入或输出转变为实际系统时,你发现它的变化是显著还是细微?在我看来,我们已将其视为2.0版本,搜索功能变得与生俱来,代码执行同样如此,这就像模型在学习过程中所做的那样。你是否有这样的看法,即训练所需的设施或我们对模型的思考方式将发生根本性的转变,因为它们已经不再仅仅是模型?它们确实像我们为人们创造的完整系统。
谢尔盖·布林表示,这背后是几股力量的汇聚。首先,一个显著特点是众多模型在结构上展现出惊人的相似性,比如VO模型。尽管人们可能会觉得视频传播与某些文本语言模型差异巨大,但仔细观察它们的架构,会发现它们有很多共通之处。此外,令人感到意外的是,这些模型之间共享的内容极其丰富,许多内容都围绕着核心概念展开,这一切都得益于Noam以及我们团队近十年的共同努力。现在我们正在添加诸如工具使用之类的内容。
这些事件主要发生在所谓的后期训练阶段。目前,后期训练在整个训练过程中的比重持续上升。过去,99%的训练都是预先进行的,而现在这一比例有所变化,可能是90%或80%等。这种后期训练,正如某些人所说的那样,有点类似于微调,但它涵盖了包括我们进行的强化学习(RL)在内的多种工作,而这在以前仅仅是最后进行的一小部分调整。然而,如今材料种类日益丰富,同时,工具的应用在更广泛的阶段得到推广,这大大增强了模型的能力。
推理和深度思考的未来
主持人:我确实还有两个疑问需要向您请教。首先,我希望您能重返工作岗位,这样我们才能持续推进模型的发展。关于推理扩展这一方面,我们打算公布我们已取得的深度思考成果。这相当于对2.5专业版进行升级,使其推理能力得到增强,并且能够具备某种并行思维的能力。您对此有何看法?我们可能还处在扩展范式的初级阶段,未来将会有众多新的可能性被揭开,然而你在此领域似乎遇到了难题,因此我非常想了解你的见解。
谢尔盖·布林表示,令人欣喜的是,我们探索了大约五种不同的途径来达成目标,这些方法都聚焦于深度思考。因此,我感到非常欣慰,看到众多个人与团队汇聚一堂。尽管我们有时会分头行动,耗时较长,但在此过程中,我们集思广益,融合了各自最优秀的创意,相信这将催生出更为卓越的成果。我观察到,此类现象愈演愈烈,似乎正逐渐演变成一种超凡能力。若能掌握这些模型,据我所知,众多顶尖的人工智能研究机构都在热议这一议题。然而,若非仅凭一分钟的思考便能得出结论,而是能够让它们持续运行数小时、数日乃至数月,进而针对一个极其关键的问题提供更为精准的答案,那么这将具有极高的价值。
这颇具创新性,且非同寻常。它似乎意味着我们已成功解析了输入的冗长文本。我们曾有过类似经验,并且在过去一年半的时间里积累了逾百万条数据。目前,我们亟需更广阔的背景知识,因此必须持续努力。我并非认为百万条数据已足够,然而,这样的总结并非易事。对于模型而言,这宛如经历着反复的“土拨鼠日”,仿佛永无止境地循环往复。您可亲自感受这一日。您尝试这,尝试那,转眼间,生活便悄然开启,日复一日,周复一周,月复一月,事件接连不断。这便是对生活的一种独特诠释。然而,我们对于如何应对这一切,心中已有明确答案。
在处理输出任务时,若你仅面对的是一些简单的数学题目,这实则并不容易。从这一角度观察,情形颇似我们在面试求职者时,会提出十个面试问题或更多,期望他们在数月之内搭建起庞大的系统,然而我们并未明确这究竟是否是检验一个人能力的恰当方式。然而,在人工智能模型的应用中,我们已反复进行了百万次这样的尝试。我们仅指导他们解决一些基础且富有策略性的数学难题、编程任务等。我们的目标是,他们能够投入大量时间,经过数日的深思熟虑,创造出全新的成果。这无疑是一项艰巨的任务,然而,我们正逐步缩小这一差距,这无疑是一次巨大的进步。
谷歌的创业文化与加速 AI 创新
主持人表示赞同,你提供的这个案例让我联想到,我们在检验和衡量模型的过程中所面临的种种,生活里诸多事物,正如这位人工智能所不断告知我的那样,本质上都如同一个待解的评估难题。即便是面对如采访者、组建一支杰出团队等挑战,其核心仍旧是评估这一环节。令人遗憾的是,人类尚未找到解决这一问题的方法,对于人工智能评估难题,我同样感到不解。做到这一点并不是一件容易的事。
我的最后一个问题在于,这无疑是对我们所目睹的一切、对I/O技术的运用以及创新发展的又一次积极反馈。屏幕上呈现的幻灯片揭示了Demis(谷歌CEO戴米斯·哈萨比斯)的成果,上面详细列出了我们2024年推出的所有产品,同时还包括了截至当前,即2025年我们已发布的全部产品。我坚信,2025年的产品线相较于2024年将更为庞大,这无疑预示着一种显著的进展加速。就我个人体验而言,加入谷歌后,我仿佛已在公司中度过了将近一年,甚至还要稍长一些。对我而言,加盟谷歌仿佛开启了一段创业之旅,对此我非常想知道你的看法。然而,在目睹谷歌的成长、扩张以及过去二十年的发展历程后,你又是如何看待这一过程的呢?
谢尔盖·布林表示:“这是一个很好的问题。首先,我认为公司有必要定期进行自我革新。面对着各种重要的技术变革,你可能知道,我们最初是一家网络公司。为了适应发展,我们必须让移动业务发挥出应有的作用。同时,我们也清楚,我们并不擅长社交领域。如今,我们已进入人工智能领域,我认为这是一个令人激动的起点。因为从某些方面来看,谷歌其实一直都在从事人工智能的研究。”我们持续专注于数据规模与深度分析领域。同时,我们还是众多前沿性大型机器学习技术的发源地,包括但不限于谷歌大脑等。我的观点是,这构成了我们公司的核心基因。因此,我们有必要做好全面准备,迎接这一转型挑战。
任何转变对于任何公司来说可能都是困难的。我对这感到非常满意,同时我坚信,从24年到25年,我们在众多方面都实现了突破,尤其是2.5 Pro的问世,这无疑是一次显著的飞跃。我清楚,尽管在2.5 Pro推出前我们可能位居前列,但这次进步无疑是巨大的,它全面而深入。事实上,截至目前,它依然稳居多数排行榜的首位。在风格把控上,无论从哪个角度去评估,这无疑是一次令人振奋的突破。我认为,这既是科学因果关系的体现,也是我们背后科学动力的展现。得益于过去一年里我们进行的所有科学研究,我们才得以成功研发出这一模型,它将助力我们不断前行。
没过多久,便相继涌现出众多其他事件。我们已见证了2.5 Pro版本的多轮更新。或许大家并未留意,就在昨日,我们推出了全新的2.5 Flash。或许你有所察觉,在众多评测中,它实际上位居2.5 Pro之后,紧随其后。因此,借助2.5 Flash这一系列,我们如今在众多排行榜上均取得了优异的成绩。我认为,在众多公告中,这一点或许被众多人忽视。它虽被埋没,却宛如一个速度极快的模型。我坚信,它将吸引众多用例。凭借今年2.5 Pro的坚实基础,我相信我们能在其上持续进步,并保持这一发展势头,这实在令人振奋。这将是一个非凡的年份。
主持人:谢尔盖先生,非常感激您能拨冗参与。我衷心感谢您对众人的积极推动。这活动似乎颇为有趣,为此我们特备了一份不凡的礼物。我热切期待着您拆开礼物的瞬间,届时定有人能在一眨眼间将其呈现给我们。
谢尔盖·布林:感谢你,洛根,当那个东西被呈现在我们面前时,我内心充满了感激,洛根,真的非常感谢你。
主持人:我注意到你持续地辛勤付出,致力于确保每一位客户和合作伙伴都能感到满意,同时还要监控可能出现的数百万个潜在问题。我的意思是,这样的任务并非易事。
谢尔盖·布林表示,众多企业家渴望获取并实施这些模型,确保它们在应用过程中不会出现故障。这包括从函数调用到缓存,以及处理数百万项细节。我们公司极擅长将客户需求置于首位,并将这些需求有效传达给团队。因此,我们的团队正全力以赴,力求在竞争中保持领先。感谢大家的辛勤付出。大家都在竭尽全力。
主持人:给你一份特别的礼物。
谢尔盖·布林:好的。谢谢。我现在就拆箱吗?
主持人:是的,你必须立即拆箱。
谢尔盖·布林指出,我们必须紧紧把握住这个关键因素,因为它正是让所有这一切得以实现的根本所在。这指的是TPU V4,顺便一提,在我们内部,我们将其称作……那正是过去一两年间最为抢手的科技产品,而现在,我们已经迈入了新一代。尽管如此,我们在这方面的努力并未停止。他们需要将其从数据中心中提取出来。目前,它尚未投入使用。虽然我们并不需要大量的计算能力,但我们确实迫切需要TPU。偶尔那些早期的样品存在些许瑕疵,或许这便是其中之一,尽管如此,我仍心存感激。在此,我要表达我的谢意。
主持人:谢谢。感谢你的收听。
本站蘑菇号已成立2年,主要围绕于海外ID领域的分享平台,提供全面的ID账号分享知识,包括海外appleid、美区id、海外id、全球ID分享等,能让海外ID账号知识简单易懂。欢迎关注及分享本站。
本文来自作者[树州号]投稿,不代表蘑菇号立场,如若转载,请注明出处:https://bbs.houniaohao.com/haiwaipgid/202506-723.html
评论列表(3条)
我是蘑菇号的签约作者“树州号”
本文概览:google近日,谷歌创始人谢尔盖·布林接受了知名播客主理人洛根的访谈。对话探讨了谷歌 I/O 大会上的最新动态,以及谷歌 AI 开发的整体现状。...
文章不错《google 谷歌创始人布林谈AI进展:虚拟试穿反响热烈,但工作仍待完善》内容很有帮助