AI阅读被维苏威火山烧焦的古卷轴

   日期:2024-08-28     来源:本站    作者:admin    浏览:113    

  

  

  一名21岁的计算机科学专业学生赢得了一项全球比赛,他阅读了一份来自古罗马赫库兰尼姆城的碳化卷轴中的第一段文字,该卷轴自公元79年火山爆发以来一直无法阅读,而庞贝古城附近也被火山喷发掩埋。这一突破可能会打开希腊罗马时代唯一保存完好的图书馆中的数百个文本。

  内布拉斯加州大学林肯分校的Luke Farritor开发了一种机器学习算法,该算法可以检测到卷起来的莎草纸上的几行希腊字母,包括πορ? ορ α? (porphyras),意思是“紫色”。Farritor使用表面纹理上细微的、小规模的差异来训练他的神经网络并突出墨水。

  “当我看到第一张图像时,我很震惊,”意大利那不勒斯大学的纸莎草学家、审查法里托发现的学术委员会成员费代丽卡·尼古拉迪(Federica Nicolardi)说。“这真是一个梦,”她说。现在,“我可以从卷轴里面看到一些东西。”

  公元79年10月,维苏威火山爆发,赫库兰尼姆被埋在20米深的火山灰下,数百卷卷轴被埋在地下。早期打开莎草纸的尝试造成了一堆碎片,学者们担心剩下的部分永远无法展开或阅读。“这些东西太疯狂了。它们都被揉皱了。”Nicolardi说。

  维苏威火山挑战赛提供了一系列奖项,从卷轴上阅读四段或四段以上的人可以获得70万美元的大奖。10月12日,组织者宣布,法里托在4平方厘米的莎草纸上读了10个以上的字,赢得了“首字母”奖,奖金为4万美元。柏林自由大学(Free University of Berlin)的研究生优素福·纳德(Youssef Nader)获得第二名,将获得1万美元奖金。

  意大利威尼斯Ca' Foscari大学的古希腊和罗马历史学家Thea Sommerschield说,最终看到卷轴里的字母和单词是“非常令人兴奋的”。这些卷轴是在18世纪被发现的,当时工人们偶然发现了一座豪华别墅的遗迹,这座别墅可能属于凯撒大帝岳父的家庭。Sommerschield说,破译纸莎草纸可以“彻底改变我们对古代历史和文学的认识”。今天已知的大多数经典文本都是抄写员几个世纪以来反复抄写的结果。相比之下,赫库兰尼姆图书馆包含的作品没有从任何其他来源了解,直接来自作者。

  到目前为止,研究人员只能研究打开的碎片。已经确定了一些拉丁作品,但其中大多数包含与伊壁鸠鲁哲学学派有关的希腊文本。《论自然》中有伊壁鸠鲁自己写的部分,还有一位名叫菲洛德穆斯的不知名哲学家的作品,内容涉及罪恶、音乐、修辞和死亡。有人认为,这个图书馆可能曾经是他的工作收藏。但是超过600卷卷轴——大部分保存在那不勒斯的国家图书馆,少数保存在英国和法国——仍然完好无损,未被打开。在别墅的较低楼层还可以找到更多的纸莎草纸,这些楼层还没有被挖掘出来。

  帮助建立维苏威火山挑战赛的计算机科学家Brent Seales和他的团队花了数年时间开发方法,使用x射线计算机断层扫描(CT)“虚拟地解开”消失的薄层,并将其可视化为一系列平面图像。2016年,在列克星敦的肯塔基大学工作的西尔斯报告说,他使用这种技术阅读了一份来自以色列En-Gedi的烧焦的卷轴,揭示了写于公元三世纪或四世纪的《利未记》的部分内容,《利未记》是犹太律法和基督教旧约的一部分。但是En-Gedi卷轴上的墨水含有金属,所以它在CT扫描上发出明亮的光。赫库兰尼姆古卷上的墨水是碳基的,本质上是木炭和水,扫描时的密度和它所在的莎草纸一样,所以根本看不出来。

  Seales意识到,即使亮度没有差异,CT扫描也可以捕捉到纹理上的微小差异,从而区分涂有墨水的莎草纸的区域。为了证明这一点,他训练了一个人工神经网络来读取打开的赫库兰尼姆碎片的x射线图像中的字母。然后,在2019年,他将两个完整的卷轴从巴黎的法兰西研究所带到钻石光源,这是英国牛津附近的一个同步加速器x射线设施,以最高分辨率(每个3D图像元素或体素4-8微米)扫描它们。

  然而,阅读完整的卷轴仍然是一项艰巨的任务,因此该团队向公众发布了所有扫描结果和代码,并发起了维苏威火山挑战。西尔斯说:“我们都同意,与其把所有东西都藏起来,还不如早点读懂里面的东西。”

  大约1500个团队很快通过玩家聊天平台Discord进行了讨论和合作。奖品是分阶段设计的,当每个里程碑达到时,获胜代码将发布给每个人来构建。法里托一直对历史感兴趣,从小就自学拉丁语,很早就参与其中。

  与此同时,Seales的团队也在进行虚拟拆封,发布被压扁的碎片的图像供参赛者分析。6月下旬出现了一个关键时刻,一位参赛者指出,在一些照片上,墨水偶尔可以用肉眼看到,这是一种微妙的纹理,很快就被称为“裂纹”。法里托立刻把注意力集中在噼啪声上,寻找更多的字母线索。

  8月的一个晚上,他在一个聚会上收到了一个警报,说有一个新的片段被释放了,发出了特别明显的噼啪声。他通过手机连接,在新图像上运行算法。一个小时后走回家,他拿出手机,看到屏幕上有五个字母。“我跳上跳下,”他说。“哦,我的天哪,这真的有用。”从那时起,他们只花了几天的时间来完善模型,并确定了获奖所需的10个字母。

  纸草学家也很兴奋。在打开的赫库兰尼姆古卷中还没有看到“紫色”这个词。紫色染料在古罗马非常受欢迎,它是由海螺的腺体制成的,所以这个词可以指紫色、长袍、买得起这种染料的人的地位,甚至是软体动物。但比单个单词更重要的是阅读任何东西,Nicolardi说。这一进展“使我们有可能恢复整个卷轴的文本”,包括标题和作者,这样就可以识别作品并确定其日期。

  谷歌DeepMind驻伦敦的研究科学家扬尼斯·阿塞尔(Yannis Assael)将维苏威火山挑战赛描述为“独特而鼓舞人心”。但他指出,这是一个更广泛转变的一部分,人工智能(AI)正越来越多地帮助研究古代文本。例如,去年,Assael和Sommerschield发布了一个名为Ithaca的人工智能工具,旨在帮助学者收集未识别的古希腊铭文的日期和起源,并为文本提供建议,以填补任何空白。现在,它每周收到数百个查询,类似的努力正在应用于从韩语到阿卡德语(古代美索不达米亚使用的语言)的语言。

  希尔斯希望机器学习能打开他所谓的“隐形图书馆”。这指的是实物存在,但没有人能看到的文本,包括用于中世纪书籍装订的羊皮纸;重写本,后来的文字掩盖了下面的一层;还有纸盒,旧莎草纸的碎片被用来制作古埃及木乃伊盒和面具。

  然而现在,所有的目光都集中在维苏威火山挑战赛上。大奖的截止日期是12月31日,席尔斯形容当时的气氛是“毫无节制的乐观”。法里托就是其中之一,他已经在卷轴的其他部分运行了他的模型,并看到更多的字符出现。

  本文经许可转载,首次发表于2023年10月12日。

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行