元宇宙,重构人机关系新场景

2022年09月22日07:38

来源:光明日报

  交互改变 AI与视频完成交互

  人与人之间的交互是通过捕捉声音、动作、文字等信号完成信息传输的。自人类发明计算机起,人人交互很大一部分被人机交互所代替。而主流人机交互方式的发展,可大致划分为三个阶段。

  第一个阶段是互联网时代。在互联网时代,人机交互主要是通过手指操作鼠标、键盘,眼睛查看显示屏内容完成。为何如此?因为手指是人类完成精细动作最直接的器官,眼睛是能够最大化、直接接收外界信息的五官之一。自然地,人类会选择手指操控鼠标键盘完成人类对机器的输入,眼睛查看显示器内容完成机器对人类的输出。

  第二个时代是移动互联网时代。在移动互联网时代,人机交互主要是通过手指操控触摸屏完成。这种交互技术在全球范围内的第一次大规模商用,始于2007年的苹果手机,至今仍然是所有移动设备的主要交互方式。与第一代交互方式不同,这样的方式回归了人类婴幼儿时期的最基本动作,即用手指在屏幕上指向、点击、滑动,交互设备由触摸屏替代了鼠标、键盘。

  在第三代交互方式出现之前,我们需要审视这样一个现象。第一代、第二代交互方式普及时,其他的交互方式(肢体动作、语音、肌电、脑电等),和交互设备(体感摄像头、惯性传感器、智能眼镜、智能手环、智能头盔)也在不断涌现。但这些交互方式往往都因为表达能力受限、准确度不高等问题,始终无法取代手指和眼睛在交互方式中的主导地位。

  第三个时代是2021年开始构建的元宇宙时代。在元宇宙时代,现实世界中的人类可以和虚拟世界中的智能体(虚拟人、数字财产、数字物品等)进行交互。在元宇宙构建初期,人类仍然通过手指和眼睛与虚拟世界进行交互,就像在玩一场“身临其境的沉浸式视频游戏”。与第二代交互方式的区别在于,其交互设备的多样性将得到极大扩展。例如,摄像头、惯性传感器将捕捉到的人类身体动作、语音等指令展示在视频游戏中,游戏剧情反馈也会通过智能眼镜、智能头盔展示给人类。在不远的未来,当AI技术不断发展,特别是脑机交互技术可以准确读取人脑信息时,人们就可以不通过动作、语音、打字等其他信号发送指令,而可以直接将意念所想传达给设备,解锁AI技术中这一最神秘的难关。因此,交互的终极方式是视频和AI——人类通过AI将指令输入到虚拟世界,同时又通过沉浸式视频展示将交互结果输出给人类。

  连接改变 去中心化、碎片化的连接

  人机交互的方式,不仅关系到人类获取信息的渠道,同样也决定了人与人之间在网络空间中的连接形式。伴随着人机交互方式的改变,人与人之间的连接形式也将被重新定义和构建。

  起初,互联网Web1.0时代是一个中心化、开放连接的时代,其主要目标是连接所有的互联网公开信息,方便人们检索和查找信息。用户通过鼠标、键盘,与网站内容进行交互,网页之间通过超链接相连,形成了一张巨大的网。这张网中的节点是网页,这些网页连接着数以亿计的访问者设备,每个网页都部署在中心化的服务器上。在这个时代,人们的主要需求是检索和查找网页信息,而社交、娱乐等需求并不旺盛,人与人之间的关系通过访问共同网页而产生,没有任何人或机构试图阻碍这种关系的产生。

  互联网Web2.0时代则变成了一个中心化、割裂连接的时代,其主要目标是连接所有的人,并且最大化地激活人们的社交、游戏、购物、视听、交易等个性化需求。在这个阶段,用户在不同时空环境下,通过点击、触控等操作表达需求,被网站、app捕捉,并通过推荐系统反馈给用户个性化内容。因此,此时的互联网仍然是中心化的,只是用户之间的连接已经被逐步割裂。例如,流量较大的网站为了更好吸引用户,开始经营自己的用户群体,通过让用户注册,形成了该网站系统下的独立用户群体。目前,移动智能手机几乎所有app都要求用户进行注册,每个app的系统内部,用户之间可以进行连接。但不同网站、app系统的用户,无法进行互联互通。可以说,整个互联网像是被割裂成了无数个子网,较大的子网代表了用户数较多的头部网站或app。每个子网内部都是中心化的,所有数据都存储在该网站或app的数据库中,承载着该网站或app提供的特定业务(如社交、游戏、视听等)。用户在每个子网中都有一个注册ID,享受着该子网提供的业务。

  而目前,我们正在探索的互联网Web3.0时代,则是一个去中心化、碎片化连接的时代,其主要目的是支持人与人通过虚拟世界智能体之间的交互,产生某种虚拟关系。这样一种新型虚拟关系,将再一次重构元宇宙框架下人与人间的连接形式。用户在元宇宙中可以创建属于自己的唯一虚拟身份以及若干虚拟资产和虚拟物品,用户只需通过虚拟身份在某虚拟社区进行授权操作,就可以与该社区中的其他用户产生虚拟关系。这些虚拟世界的操作,可以通过传统的点击、触控等交互动作完成,也可以通过虚拟现实智能眼镜、沉浸式AI视频中的交互动作(眼神、肢体动作)完成,虚拟社区捕捉到这些交互动作之后,所产生的结果也会通过交互设备(智能眼镜、智能头盔)以虚拟视频方式展示给用户。同时,这一系列的动作和结果也将会记录在区块链上,从而保证数据安全。

  显然,这样一系列的虚拟操作是以用户为中心,且完全的分布式和不可预测,不存在任何一个网站或app可以要求用户必须重新注册一个ID,也不存在一个超级网站或app可以收集绝大多数用户的个人数据。人与人之间的连接与否,取决于双方是否存在虚拟关系,是否授权虚拟身份在虚拟社区中进行了某个操作。

  面向未来 充满机遇与挑战

  元宇宙时代,在去中心化、碎片化的虚拟世界,以往互联网中的资源和利益都会重新分配,产生了很多新的机遇。当然,实现这样的愿景也存在诸多挑战。

  在构建元宇宙的初级阶段,交互方式仍然不可避免地依赖于手和眼睛。沉浸式的交互设备,使得输入、输出可以更加逼真,除了视觉、听觉,还可以包括触觉、嗅觉等其他多个维度的感官体验。而当AI交互技术进阶到高级阶段时,我们就可以脱离手、眼等器官,AI可以读取人的意念,通过脑机接口,完成人类与虚拟世界的交互,即人们将自己的指令通过脑电波直接输入给虚拟世界,同时虚拟世界也将反馈结果直接发送给人脑。这样一种超级智能的交互过程甚至省去了人的动作发号施令、用眼睛查看结果等传统操作,可以直接将交互结果呈现在人脑中。这种方式省去了所有中间环节,其他第三方更是无法知晓人与人之间在交流什么,从而做到了彻彻底底的去中心化,以及保护了人脑所想的数据安全。

  对元宇宙连接的碎片化重构,打破了传统网络空间中的业务垄断,也将重构传统的资源和利益分配方式,从而产生了流量与盈利两方面机遇。首先,由于用户在元宇宙中的交互关系都只存在于社区中,而传统互联网巨头也只会变成一个较大的社区,这会导致用户更多地将时间分配给具有独特属性的中小型社区,他们或将迎来更多流量机遇,而不像现在用户时间都被头部网站、app所瓜分。其次,鉴于交互方式多元化,第三方无法轻易捕捉到用户的所有动作、眼神、意念等数据,无法收集到足够多的个性化偏好数据,传统的推荐系统就无法正常运行,也就无法复制互联网巨头所赖以生存的广告营销推广等营利模式,而流量所带来的利润将更加平均地分配给不同社区。

  同时,我们需要清醒地认识到,无论从用户还是社区着眼,即使实现视频交互技术下的初级元宇宙,也存在很多困难和挑战。首先,从实践来看,多数用户宁可用一个囊括所有生活服务的超级app,也不愿在不同虚拟社区之间来回切换。即使用户发现很多数据被数据中心所掌握,也会习惯性继续使用传统的互联网服务。可以说,大部分用户并没有意识到中心化的互联网对自身数据隐私安全的侵害。其次,流量意味着商业价值。作为服务提供商的头部网站、app都不愿意看到人们将时间花在中小型虚拟社区中,他们仍然希望在虚拟世界构建最大的社区,并吸引足够多的用户和使用时间。最后,虚拟社区是碎片化的,用户所发表的文字、图片、甚至更难捕捉到的信息,分散在更多社区中,从分散度以及信息监测维度上,都无疑大大提高了监管的难度。

  (作者:边凯归,系北京大学网络信息系统研究所副所长)

编辑:张馨予

我来说两句 0条评论 0人参与,