pdfのページ情報を残しながらテキスト化するために、 フリーソフトpdfDoct.exeを使ったら出力に ^Gというのがvimで表示された。 何かの制御文字だろうが、これを除去しておきたい。 ASCIIで制御文字は0~31でほとんどを占めるので http://e-words.jp/p/r-ascii.html この値である文字は除去することにしたら解決した。
#文字列から制御文字除去 def removeControlCharacter(s): ret = '' for c in s: ord_num = ord(c) #制御文字 if(ord_num <= 31): a = 1234 else: ret += c return ret