[Ruby on Rails] OCR and Document Manipulation with Docsplit

การทำ OCR (Optical Character Recognition)
เดี๋ยวนี้มี Library ให้ใช้เยอะแยะไปหมด
Ruby ก็เช่นกัน ... ผมได้โจทย์ให้ทำ OCR บน Rails มา

แต่ยังเขียน Module ของ Rails ไม่เสร็จก็เลยหนีมาลองเล่น OCR ก่อน
ก็ได้มาเจอของดี นั่นคือ Docsplit

นี่คือ Code ตัวอย่างการทำ OCR จากไฟล์ PDF ครับ 
ตอนนี้ผมลองแค่กับภาษาอังกฤษ ถือว่า เร็วและแม่นยำมาก
ผลลัพธ์ไม่ออกที่จอ อย่าตกใจนะครับ (ตอนแรกก็ตกใจเหมือนกัน)
ผลลัพธ์จะถูกเซฟเก็บไว้เป็น PDF_FILE_NAME.txt ที่ Current Directory ครับ
จะเห็นได้ว่า ผมได้เขียน Code เพื่อเปิดอ่านมันมาแสดงอีกที :) 

โดยตัว Docsplit นี้สามารถที่จะใช้ในรูปแบบของ 
Ruby Application และ Command Line Interface ทั้งคู่เลยนะครับ

วิธีการลงก็ไม่ยากครับ ลงผ่าน Terminal ได้เลย
ซึ่งในที่นี้ผมใช้ Mac จะใช้ Homebrew ในการทำ Package Management
ใครใช้ Linux ก็ต้องลงผ่าน aptitude นะครับ :)
$ gem install docsplit
จากนั้นก็ลง Dependency มีทั้งหมด 2 ตัวครับ 

GraphicsMagick
$ brew install graphicsmagick
Poppler
$ brew install poppler
on linux --> $ aptitude install poppler-utils poppler-data
เท่านี้เองครับ ที่ำจเป็นต้องลง แล้วก็ยังมี Optional Dependency เอง
ลองอ่านรายละเอียดที่ Official Page นะครับ วิธีการใช้งาน Library นี้ก็อยู่ที่นี่เช่นกัน

http://documentcloud.github.com/docsplit/


จากนั้นถ้าคุณจะเอา Library นี้ไปใช้บน Rails ก็ง่ายๆ แค่ไปเพิ่มที่ Gemfile
gem 'docsplit'

Popular posts from this blog

12 วิธี การบริการและดูแลลูกค้าในร้าน Starbucks

[Android Dev] การติดตั้ง Eclipse+AndroidSDK เพื่อพัฒนาโปรแกรมบน Android

5 TED Talk ที่จะช่วยให้คุณทำงานดีขึ้น