古代文字遇上现代模式识别
赫梯研究中据称取得的一项机器学习突破,指向人工智能在文科领域应用方式的更广泛转变。根据来自 Interesting Engineering 的候选元数据和摘要,一个由计算语言学家和考古学家组成的团队开发出了一套数字系统,能够以90%的准确率破译一段有3500年历史的赫梯文字。
即便原始资料有限,这一核心说法仍然意义重大。赫梯文献位于古代近东最基础的档案体系之一之中,但阅读、分类和重建受损或难以辨认的铭文,仍然是一项耗时的工作。一套能够以较高准确率提供辅助的系统不会取代专家解读,但它可以实质性地加快历史分析中最耗时的部分之一。
为什么90%的数字很重要
据称的准确率足以在考古学和人工智能研究两个领域都引发关注。实际上,这类工具的价值并不在于让整个领域一次性被彻底解决,而在于减少专家的人工负担。如果模型能够提供高质量的候选释读、识别重复模式,或帮助标准化转写流程,研究人员就能把时间投入到机器仍然难以胜任的更复杂解释工作中。
这也改变了规模。古文字研究往往受限于专家时间、残片状态以及反复复核的需要。数字系统有可能处理远多于人类团队独自完成的材料,尤其是在铭文数量庞大、保存不完整或分散于不同馆藏时。
这说明了人工智能在学术研究中的角色
据称的赫梯研究成果符合一个更广泛的趋势:人工智能正从面向消费者的新奇技术,转向面向特定领域的研究基础设施。在科学和工程领域,这通常意味着用于建模、模拟或自动化的工具。在人文学科中,这则越来越多地意味着转写、修复辅助、语料分析,以及跨大规模文本和图像的模式发现。
关键区别在于,历史研究不能被简化为原始预测。模型可以给出一个可能的释读,但语境、语法、年代和物质证据仍然至关重要。这使得人工监督始终处于核心位置。真正的前景在于专家与软件之间的协作,而不是用后者取代前者。
从破译到可访问性
如果这类系统继续改进,其最大的长期影响可能在于可访问性。更多文本可以被数字化,更多铭文可以变得可搜索,更多研究团队可以处理那些此前过于困难或过于缓慢而难以加工的古代语料。对学生和学者而言,这都可能降低进入高度专业化领域的门槛。
它也可能改善保护工作流程。数字辅助阅读工具也许有助于机构更一致地记录文物,并为未来研究创建更易用的档案。在材料损伤和数据稀缺始终存在的学科中,更好的数字处理本身就是一项有意义的进步。
可以有把握地说些什么
- 所提供的元数据描述了一套由计算语言学家和考古学家创建的机器学习系统。
- 该系统据称针对的是一种有3500年历史的赫梯文字。
- 据报道,其性能水平为90%的准确率。
仅凭这些细节,就足以将这一报道视为人工智能辅助学术研究未来走向的重要信号。如果报道中的性能在更完整的发表或技术披露中得到证实,那将标志着数字考古和计算语言学都向前迈出了值得注意的一步。
本文基于 Interesting Engineering 的报道。阅读原文。
Originally published on interestingengineering.com


