中文表格OCR

input.jpg
# 文字识别
tesseract input.jpg stdout -l chi_sim --psm 6 --oem 3 --dpi 300 > output.txt

# 初步修正
cat output.txt |
  gsed -r '/^\s*$/d' |
    gsed -r 's/([0-9]) ([0-9])/\1.\2/g' |
      gsed -r 's/\s*\.\s*/./g' |
        gsed -r 's/\s+/,/g' > output.csv

# 预览数据
$ xsv table output.csv

# 最终修正
$ vim output.csv
地区,2020年发电量,2020年用电量
山东省,5806.43,6939.84
广东省,5225.91,6926.12
江苏省,5217.54,6373.71
浙江省,3531.31,4829.68
河北省,3425.07,3933.92
内蒙古自治区,5810.97,3900.49
河南省,2906.12,3391.86
新疆维吾尔自治区,4121.86,2998.32
四川省,4182.28,2865.2
福建省,2651.05,2483
安徽省,2808.98,2427.5
辽宁省,2135.26,2423.4
山西省,3503.54,2341.73
湖北省,3015.84,2144.18
云南省,3674.44,2025.66
广西壮族自治区,1970.88,2025.25
湖南省,1554.43,1929.28
陕西省,2379.41,1740.9
江西省,1444.71,1626.82
贵州省,2305.44,1586.06
上海市,861.74,1575.96
甘肃省,1762.35,1375.7
重庆市,840.52,1186.52
北京市,457.47,1139.97
宁夏回族自治区,1882.36,1038.2
黑龙江省,1137.84,1014.4
天津市,771.61,874.59
吉林省,1018.83,805.4
青海省,951.95,742.01
海南省,345.53,362.08
西藏自治区,88.9,82.45
output.csv