维基文库:光学字符识别

捷径
WS:OCR

光学字符识别Optical Character RecognitionOCR)是将文本图片转换为文本的技术。维基媒体提供OCR工具

校对模式

编辑
 
校对模式

维基文库的目标是收录原文。为了确保原文的可供查证,最好的办法是以校对模式,将文本录入到扫描文件边上。系统可以自动以文章模式显示整本/整章图书,读者点击文本左侧页码,就可以看到原文扫描,便于查证和更正。以《康熙云南县志》为例:

大规模OCR计划

编辑

录入文本的工作是繁琐的,电脑可以自动识别。现在,已经有大量图书扫描上传至维基共享资源。如果可以大规模对它们OCR,可便于后面维基文库人的校对。即使无人校对,文本摆在那里,人们也可以检索。

现在还未开始大规模OCR,缺乏相应工具,需要人才开发。

对于您希望OCR的文件,请列在Wikisource:OCR/大规模OCR测试文件列表,供测试。

指引

编辑

为确保维基文库的文本质量和页面管理,避免创建低质量和冗余的页面,使用OCR软件的用户应遵循以下指引:

已有数字化文本

编辑

当维基文库已经收录了原文对应的数字化文本时,不应大量创建错误率高于该数字化文本的页面。

在使用OCR软件前,请检查维基文库中是否已有相应的数字化文本,以避免重复创建相似内容。

尚未收录数字化文本的情况

编辑

当维基文库尚未收录原文对应数字化文本,但可公开访问的外部网站已经收录了该数字化文本时,不应大量创建错误率高于外部网站提供的数字化文本的页面。

在使用OCR软件前,确认外部网站上是否已有数字化文本,并在创建页面时参考该文本,以提高准确性。

页面创建时的注意事项

编辑

在使用OCR软件创建页面时,务必确保新建的页面质量高,避免低质量文本充斥整个维基文库。

避免大规模创建相似或重复的页面,尤其是在已有数字化文本的情况下。

特殊情况处理

编辑

对于特殊情况,如书籍中有中缝书名、竖排排版等,使用正则表达式替换等功能可以提高识别准确性。

可选的将半角标点替换为全角标点的功能,以改善OCR对标点的准确性。

预览和校对

编辑

使用OCR工具时,建议使用预览功能,随机或指定识别几个页面,以判断识别率是否合适,再提交识别全部并保存。

进行人工校对,尤其是对于手写体、低分辨率印刷体的识别结果。

嵌入包含和页面分割

编辑

可选的自动将对用户指定的主页面创建类似于 <pages index="文件名" from="1" to="32" /> 的嵌入包含,后续由用户按卷分割至子页面。

协作与社区反馈

编辑

在使用OCR工具时,我们鼓励用户与维基文库社区协作,分享使用经验和解决问题的方法。

如有特殊需求或功能建议,欢迎在维基文库社区中提出并进行讨论。