懶人小説下載器

通用網站內容抓取工具,可批量抓取小說、論壇內容等並保存為TXT文檔

目前為 2022-01-01 提交的版本,檢視 最新版本

您需要先安裝使用者腳本管理器擴展,如 TampermonkeyGreasemonkeyViolentmonkey 之後才能安裝該腳本。

You will need to install an extension such as Tampermonkey to install this script.

您需要先安裝使用者腳本管理器擴充功能,如 TampermonkeyViolentmonkey 後才能安裝該腳本。

您需要先安裝使用者腳本管理器擴充功能,如 TampermonkeyUserscripts 後才能安裝該腳本。

你需要先安裝一款使用者腳本管理器擴展,比如 Tampermonkey,才能安裝此腳本

您需要先安裝使用者腳本管理器擴充功能後才能安裝該腳本。

(我已經安裝了使用者腳本管理器,讓我安裝!)

你需要先安裝一款使用者樣式管理器擴展,比如 Stylus,才能安裝此樣式

你需要先安裝一款使用者樣式管理器擴展,比如 Stylus,才能安裝此樣式

你需要先安裝一款使用者樣式管理器擴展,比如 Stylus,才能安裝此樣式

你需要先安裝一款使用者樣式管理器擴展後才能安裝此樣式

你需要先安裝一款使用者樣式管理器擴展後才能安裝此樣式

你需要先安裝一款使用者樣式管理器擴展後才能安裝此樣式

(我已經安裝了使用者樣式管理器,讓我安裝!)

作者
hoothin
評價
0 0 0
版本
2.6.2
建立日期
2016-11-23
更新日期
2022-01-01
尺寸
26.1 KB
相容性
相容於 Firefox 相容於 Chrome 相容於 Opera 相容於 Safari
授權條款
MIT
腳本執行於
所有網站

起點以及其他知名小說站都推薦用這個腳本【小說】下載腳本,遇到沒人願意適配的不知名小站再考慮我的腳本。

輕量級抓取腳本,用於下載網頁中的主要內容,理論上適用於任何非Ajax寫入正文的小說網站、論壇、貼吧等而無需為此寫任何規則。

腳本會自動檢索頁面中的主要內容並下載(省得複製完gal攻略還要手動逐條刪除「某某某13級頭銜水龍王發表於X年X月X日來自XX客戶端」)。 如果位於小說目錄頁會遍歷所有章節並排序拼接後存為TXT文檔。

img 【高亮或者格式化網頁中選中的代碼,並統計字數】

如果有幫助到你,請透過PayPal管道请我喝一杯奶茶


操作說明

  • 打開小說目錄頁、論壇或貼吧內容頁
  • 按下 CTRL+F9 或點擊命令菜單
  • 按下 SHIFT+CTRL+F9 忽略目錄,僅下載當前頁
  • 關於配置項
    • 【以下功能需要通過油猴命令菜單進入】
    • 自定義下載目錄範圍:如https://xxx.xxx/book-[20-99].html,https://xxx.xxx/book-[01-10].html,意思為下載book-20.html到book-99.html,以及book-01.html到book-10.html,使用[1-10]則不補0。
    • 通過章節選擇器自定義下載:輸入要下載的章節連結的css選擇器即可,後面可以接上url替換碼、以及自定義處理代碼。
    • 干擾碼:填入干擾碼的css選擇器,如.mask,.ksam,意為刪除class為mask或者ksam的元素。
    • 按標題名重新排序:是則把目錄頁所有連結按標題名排序後存入txt,否則按頁面位置順序排列。
    • 下載線程數:同時下載的線程數,默認為20,遇到存在限制的站點可調低。
  • 自定義例子
    1. po18,章節的選擇器為 .l_chaptname>a ,輸入並下載後發現通過 url 無法下載正文內容,正文是 ajax 通過 articlescontent 下載的。此時可後接 @@articles@@articlescontent (@@ 分隔) 將章節 url 中的 articles 替換為 articlescontent 。 綜上 .l_chaptname>a@@articles@@articlescontent 即可適配該站。其中第一個 articles 可使用正則,例如 @@articles(\d+)@@$1content 代表將連結中的「articles1」「articles2」等替換為「1content」「2content」。
    2. pixiv,p站小說的章節選擇器為main>section ul>li>div>a,無需替換連結,因此後兩項留空。有6個@了 😂。正文在meta里,需要自定義代碼提取meta-preload數據的content項。綜上 main>section ul>li>div>a@@@@@@var noval=JSON.parse(data.querySelector("#meta-preload-data").content).novel;noval[Object.keys(noval)[0]].content; 即可下載p站小說。其中「data」代表抓取網頁的document對象,若返回的是純文本,則用 data.body.innerText 獲取。

測試網頁

為啥要寫這個腳本?

主要是 怠惰啊 因為我要下載馳星周的漂流街,卻發現前人的輪子「【小說】下載腳本」不能用,又不想為這破站 🙃 寫規則,而且我就是看不上霸道總裁修仙穿越你咬我啊指不定它三天兩頭改個版呢。寫個通用規則的腳本,一來可以不用追著數不清的小說站適配修改更新,二來也免去了法律風險。 這個腳本會自動去查找主要內容並下載,不需要寫規則。當然如果你家網站廣告內容比正文還多我也沒辦法。 遇到特殊網站還是建議用「【小說】下載腳本」。