La idea de Algoritmos Genéticos, se basa en la teoría de la evolución de las especies, de Charles Darwin (1859). La idea principal es que las variaciones o mutaciones, ocurren en la reproducción y serán conservadas en base a la idoneidad reproductiva.
Viewing posts for the category Quick 'n Dirty
La proliferación de dispositivos USB maliciosos, para hacerse con el control de nuestra máquina están a la orden del día.
Primeros pasos con Machine Learning.
Mini - Ladrillo
El Código
#!/usr/bin/python
Training tesseract OCR
Tesseract es probablemente el motor de OCR mas preciso disponible actualmente. Combinado con Leptonica Image Processing Library puede leer una gran variedad de formatos de imágen y convertirlos a texto en unos 60 idiomas distintos. Fué uno de los 3 mejores motores de OCR en 1995 UNLV Accuracy test. Entre 1995 y 2006 se ha trabajado poco en él, pero desde entonces ha sido ampliamente mejorado por Google. Está liberado bajo licencia Apache License 2.0, esto es, se permite su uso comercial.
Tesseract-ocr, está incluído en los repositorios de la mayor parte de distribuciones Linux y también tiene versión para windows. Están disponibles para su uso, bases de datos para reconocimiento de los principales idiomas.
Si queremos incluír el reconocimiento de nuevas tipografías o idiomas, tendremos que hacer training del motor de OCR. Este training, se lleva a cabo de la siguiente manera: