百度文庫原格式下載工具是由吾愛破解那邊的開發(fā)者開發(fā)的一款工具,軟件能直接下載原格式的文庫,也就是說,和冰點文庫那種截圖方式不一樣,下載下來的doc文件都是可以直接編輯的,遺憾的是只支持免費的文檔下載,并且PPT不能編輯。
明確幾點
1:不能下載付費文檔。 也就是需要付人民幣的,都不行。
2:其實說白了,就是把可以預覽的word部分給整理出來,變成doc格式。
3:如果word里面都是圖片的。已經遇到過這種情況了,現(xiàn)在還不能支持。是不是圖片,用鼠標在百度文庫頁面劃拉一下就知道了,不能被選中的就是圖片。
為啥不用冰點文庫下載器?
主要是因為冰點是先導出pdf,然后掃描出txt,文字識別有可能會錯誤,還有就是用word打開txt文檔還是有字體,顏色等丟失,pdf本身編輯又不方便。還有就是總是要設置我的首頁。
特意做了這樣的一個小工具,共享給大家。有很多地方還可以繼續(xù)優(yōu)化,可是做的非常累,給大家看看有沒有人喜歡,有人喜歡的話,偶就繼續(xù)再做做。
偶本身不是做界面出身的,因為要給大家使用,還強行去學了一個界面,搞得丑的自己都不想要,大家克服一下吧。
界面邏輯,就一個按鈕(實在是不會寫界面),空白框里面輸入百度文庫地址,點擊提交。
文檔下載到當前目錄下的download文件夾里面,無論啥文件,下載號以后都叫test.doc,自己注意重命名,不然會覆蓋。 (下個版本加上自動命名吧)
還有就是偶用python做的,不知道為啥python3.7打包出來文件好大好大,要37.6MB,我也很崩潰呀,如果是我自己看到這樣的大小,我也以為是病毒呀,可是確實就是這么大,這里面沒有任何廣告,后門 。。。。。
界面后面故意留了個command窗口,是因為不會做進度條,下載時有信息都是直接輸出到command窗口的。大家要是不希望回頭我去學怎么做個進度條出來。
當前可以做到的是
1:僅僅支持DOC格式,雖然pdf,txt格式不難,但是還沒有時間去做。
2:這個工具可以做到的就是doc文件格式文本下載,字體,顏色,段落基本上都是正確的。
3:目前只能擷取doc文章中的文字部分,圖片部分當前還沒有完成,已經有思路了,技術上是可行的,回頭我再想想怎么整合到代碼里面去。
當前實現(xiàn)功能
1:doc格式可以下載,可以識別部分:
1.1:硬回車換行,基本可以正常識別。
1.2:表格中偶爾有硬回車,基本可以識別。
1.3:軟回車,基本可以識別
2:文字應該不會有錯別字,因為不是用pdf掃描識別做的。