机箱厂家
免费服务热线

Free service

hotline

010-00000000
机箱厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

新技术将描述文字变成图像的机器

发布时间:2020-02-11 05:46:00 阅读: 来源:机箱厂家

想象一下这个画面:一颗橡树伫立在麦田中,背景是万里无云的蓝天,太阳挂在天边。我相信所有看到这段描述的人脑子中都浮现了一副画面。将文字描述变成一幅画面,一直以来都是人类独有的能力。然而这个局面很快就要被打破了。

来自日本东京大学的Hiroharu Kato和Tatsuya Harada给计算机也赋予了同样的能力。不久之后,机器也将可以把文字描述变成画面。

当然,计算机的想象力毕竟有限,它所呈现出来的画面非常简单,有时也会出现错误,甚至毫无意义。但是这个技术仍然有着非常重要的意义,它呈现了未来的趋势,今后我们的计算机将会更加智能,甚至拥有和人类一样的能力。

很多年以来,计算机科学家一直在尝试给计算机赋予这样的能力,他们希望用语言来管理图像。例如,在搜索引擎中输入一个单词,或是一串单词,然后找到与关键词高度相关的图片。

我们事实上早就已经实现了这个功能,只不过并不是由于计算机能够理解我们的语言,而是我们给图片添加了标签。虽然这种图片搜索功能很实用,但是其本质与图像技术几乎毫无关联。

于是在几年之前,计算机科学家们开始探究图像本身。他们尝试将图像分解为一系列的像素,他们通过截取部分像素来来识别图像。例如,不同的像素排列可能代表不同的物体,如杯子的边缘、皮肤和天空等。

在人类看来,这些像素的排列方式毫无意义,但是却能够让计算机来识别图像:如果一张图片中有大量代表天空的像素排列,那么这张图像的主题很可能就是天空。

这意味着计算机可以立刻对图片进行比对。通过这种方式,当你需要某种图像的时候,计算机可以立刻在数据库内进行搜索,通过比对像素排列的方式来找到你需要的图像。搭配传统的图像标签搜索,我们能更加精确的对图片进行搜索。如果两张图片的标签相同,像素排列方式也近似,那么这两种图片的相似程度也一定非常高。事实上,科研人员在这方面确实取得了一定的突破。

与文本语言类似,研究人员将这种像素排列称为“视觉文字”。而这种全新的图像分析方式则被称为“bag-of-visual-words technique”。这种方式通过统计视觉文字的分布来对图像进行分析。

而Kato和Harada想要解决的问题则恰好与此相反。

给计算机提供视觉文字,然后让其生成完整图片,这个步骤更加困难。因为虽然视觉文字能够描述一张图片的某个部分,但是却不能解释这个部分在图像中的位置,以及它与其他哪些视觉文字有所相似。

两位研究者表示:“这个步骤有点像我们平时玩的拼图。视觉文字就是拼图的各个小块,最大的问题是将每一块都摆在正确的位置上,从而形成一个完整的图片。”

通过两种完全不同的方式,这两位研究人员解决了这个问题。第一种方式,就是在多个视觉文字之间比对平滑过渡关系。例如,一段描述杯沿的语言文字,与其过渡最为平缓的,是紧挨着它的描述杯沿的语言文字。

然而这种比对方式并没有听上去那么简单,毕竟语言文字并不是拼图,它没有特定的形状。于是两位研究人员在巨大的图像数据库中对大量语言文字进行了分析和比对,从而找到这种平缓的过渡关系。

第二种方式,就是估算一段特定的语言文字在图片中的最佳位置。例如,描述天空的语言文字,其最有可能的位置,就是在图片的最上方。

由于语言文字本身并不包含位置信息,因此Kato和Harada又一次在图像数据库中进行了分析。他们表示:“每一段语言文字,都有其最佳的位置。”通过在数据库中的比对,他们给不同类型的语言文字找到了最佳位置。

当然,这种计算非常依赖计算机的处理能力、所使用图像数据库的大小以及语言文字的数量。理论上,数据越大,结果就越精确。

虽然困难重重,Kato和Harada还是取得了突破,他们用这种方式向世界进行了演示。他们创建了一个由101张图像组成的视觉文字数据库,每一张图像都展示了不同的物体。他们将这些图像的大小调整到了128x128像素,这些图像都是有13x13像素大小的视觉文字所组成,每条视觉文字的重合度为四分之三。

在创建了这个视觉文字数据库之后,他们可以用这些信息来完成下一步工作:让计算机把文字描述变成一幅图像。

这个技术的实际效果非常令人惊讶。虽然它所生成的一些图像有些不准确,甚至是让人完全看不懂,但是也成功生成了许多准确的图像。例如,雨伞、扳手、水桶、鱼和人脸等。

这个技术也许在未来将会催生许多有意思的程序。

他们的这项技术可以运用在计算机视觉领域。一直以来,计算机科学家们开发了许多使用的自动物体识别算法,这些算法可以识别各种物体。

这些算法被称为“个体分类器”。它们可以提供高精度的物体识别,然而有时候也会出现错误,人眼能够轻易辨别的物体,会让计算机不知所措。也就是说,现在的计算机视觉技术还并不可靠。

而这样的情况很可能会被Kato和Harada的研究所改变。他们的图像语言能让个体分类器变得更加精确。让计算机的视觉越来越接近人类的视觉。

最后,Kato和Harada可以用这项技术让计算机来通过人类语言生成图像。它可以将人类的所使用的文字转化成视觉文字,从而让计算机生成图像。

将人类文字变成视觉文字并不是件轻松的事情。两位研究者在图像数据集中进行了搜索,找到了所有具有文字说明的图像。然后给这些图像添加视觉文字。在完成了这项繁琐的工作之后,计算机就可以将人类文字经由视觉文字变成图像了。

Kato和Harada表示:“在测试中,一些语句生成了完全没有意义的图像。”造成这一现象的原因,很可能是现在的视觉文字还不够丰富,而且过于简单。但是相信研究的发展,计算机所生成的图像将会越来越准确。

在计算机想象力方面,这两位研究者的发明有着重要的意义。如果你搜索一下“想象力”的定义,你会得到如下结果:“想象力是在已有形象的基础上,在头脑中创造出新想法、图像、改变的能力。”也就是说,Kato和Harada已经创造出了世界上第一台拥有想象力的计算机。

(via mashable,译|快鲤鱼,转载请注明出处)

[编辑:小V]

深圳注册公司电话

工作签证注销

注册公司多少钱

中山代理记账网

广州代理记账

中山注册公司商标

中山工作签证办理

深圳注册公司需要多少钱