基于OCR的识别图片内URL(python)

使用白名单匹配,可以有效避免URL内特殊字符被识别成一些特殊的带有终止意义的字段而停止识别

示例图片:

输出结果:

短URL识别率可以达到100%,长URL识别准确率达到98%,部分情况下存在把字符&识别成8的情况,你可以使用python一些图像处理的库先对图像进行灰度处理增加对比度,并修改tesseract库的配置参数进一步提高准确率。

扯点题外话,编程语言只是一门工具,如何选择取决于你的运用场景。Python现在热门一个是因为简单(相对C和C++),一个是现在大火的AI用Python比较适配。如果你是正经CS科班大学生,我建议还是把C作为第一语言,在有余力的情况下吃透C++,打一个好基础。如果你能熟练掌握这两个语言,学会JAVA和PYTHON一个月绝对够。一旦你从事这个行业,落下的基础迟早是要补回来的。不要指望大学里的老师,计算机行业的发展速度绝对是各个行业数一数二的,即使教材在你入学时候还没落伍(这种情况都很少),你毕业后也会发现80%的课程已经没啥用了,当然,有质量的计算机经典书籍和课程视频,还是会让你受用终生的。我已经默认学习计算机的学生都有一定的英语基础,多研究数学,你的逻辑思维能力和数学能力,决定了你发展的上限。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注