通用網站內容抓取工具,可批量抓取小說、論壇內容等並保存為TXT文檔
目前為
起點以及其他知名小說站都推薦用這個腳本【小說】下載腳本,遇到沒人願意適配的垃圾站再考慮我的腳本
輕量級抓取腳本,用於下載網頁中的主要內容,理論上適用於任何非Ajax寫入正文的小說網站、論壇、貼吧等而無需為此寫任何規則 腳本會自動檢索頁面中的主要內容並下載(省得複製完gal攻略還要手動逐條刪除「某某某13級頭銜水龍王發表於X年X月X日來自XX客戶端」) 如果位於小說目錄頁會遍歷所有章節並排序拼接後存為TXT文檔
https://xxx.xxx/book-**[20-99]**.html,https://xxx.xxx/book-**[01-10]**.html,意思為下載https://xxx.xxx/book-20.html到https://xxx.xxx/book-99.html,以及https://xxx.xxx/book-01.html到https://xxx.xxx/book-10.html,[1-10]則不補0.l_chaptname>a ,但是通過url無法下載正文,正文是ajax通過articlescontent下載的,此時可後接 @@articles@@articlescontent(@@分隔) 將章節url中的articles替換為articlescontent, .l_chaptname>a@@articles@@articlescontent 即可適配該站。其中第一個articles可使用正則,例如 @@articles\d+@@$1content 代表將連結中的「articles1」「articles2」等替換為「1content」「2content」.mask,意為刪除class為mask的元素主要是
因為我要下載馳星周的漂流街,卻發現前人的輪子「【小說】下載腳本」不能用,又不想為這破站寫規則,而且我就是看不上霸道總裁修仙穿越你咬我啊指不定它三天兩頭改個版呢。
這個腳本會自動去查找主要內容並下載,不需要寫規則。當然如果你家網站廣告內容比正文還多我也沒辦法。
遇到特殊網站還是建議用「【小說】下載腳本」。