笑看云卷云舒,淡观潮起潮落!
Monday Jan 19, 2009
一个可以从sina上下载书的小工具
在sina上看见一本讲述中国历史的书--《中国二十王朝崛起真相解密:帝国崛起》,觉得每一篇的大小比较适合下载到手机上看。于是就打算拷贝下来,但是一细看发现一页一页的用鼠标拖拷,近200页的页数,在加上建文件,有点不靠谱。 稍微花时间研究了一下它的html源文件,发现写一个简单的script就可以完全替代手工劳动。
主要思路:首先用wget将html页面下载到本地,谢天谢地它的每一本书页数之间的编号是顺序的,所以只需要指定第一页和最后一页的url就好。比如这本帝国崛起,只要通过参数 -f 和 -l 分别指定第一页和最后一页,就可以把这其间的所有页都下载到本地。然后过滤出需要的有用内容,去除无用的tag信息,一个个txt文本就生成好了(我用的moto-txt,就认txt的)。
环境:Solaris.(linux应该也行,只要有wget,不过没有试过)
Posted at 10:23PM Jan 19, 2009 by forrest in Personal | Comments[3]


很好,很强。
Posted by xue on January 20, 2009 at 12:13 AM CST #
呵呵
Posted by aling on February 24, 2009 at 02:37 PM CST #
Thanks for your information, i have read it, very good!
Posted by tiffany & co Necklace on November 13, 2009 at 03:26 PM CST #