Wenku Doc Downloader

下载“百度文库”文档,导出txt或pdf。豆丁网、爱问共享资料(新浪文档)、得力文库文档导出pdf。在文档页面最底部有蓝/绿色长方形按钮,说明脚本生效了,否则就没有生效。

当前为 2021-12-14 提交的版本,查看 最新版本

  1. // ==UserScript==
  2. // @name Wenku Doc Downloader
  3. // @namespace http://tampermonkey.net/
  4. // @version 1.2
  5. // @description 下载“百度文库”文档,导出txt或pdf。豆丁网、爱问共享资料(新浪文档)、得力文库文档导出pdf。在文档页面最底部有蓝/绿色长方形按钮,说明脚本生效了,否则就没有生效。
  6. // @author allenlv2690@gmail.com
  7. // @match https://wenku.baidu.com/view/*
  8. // @match https://www.docin.com/p-*
  9. // @match https://ishare.iask.sina.com.cn/f/*
  10. // @match https://www.deliwenku.com/p-*
  11. // @icon https://www.google.com/s2/favicons?domain=limestart.cn
  12. // @grant none
  13. // @license GPL-3.0-only
  14. // @create 2021-11-22
  15. // @note 百度还是牛的,不顾用户体验也要抓鬼。
  16. // ==/UserScript==
  17.  
  18. /*
  19. * 附属功能函数部分
  20. */
  21.  
  22. /**
  23. * 创建并下载文件
  24. * @param {string} fileName
  25. * @param {string} content
  26. */
  27. function createAndDownloadFile(fileName, content) {
  28. var aTag = document.createElement('a');
  29. var blob = new Blob([content]);
  30. aTag.download = fileName;
  31. aTag.href = URL.createObjectURL(blob);
  32. aTag.click();
  33. URL.revokeObjectURL(blob);
  34. }
  35.  
  36. /**
  37. * 允许打印页面
  38. */
  39. function allowPrint() {
  40. var style = document.createElement("style");
  41. style.innerHTML = `@media print {
  42. body{
  43. display:block;
  44. }
  45. }`;
  46. document.getElementsByTagName("head")[0].appendChild(style);
  47. }
  48.  
  49. /**
  50. * 隐藏按钮,打印页面,显示按钮
  51. */
  52. function hiddenThenPrint() {
  53. // 隐藏按钮,然后打印页面
  54. var section = document.getElementsByClassName("btns_section")[0];
  55. section.style.display = "none";
  56. window.print();
  57. // 打印结束,显示按钮
  58. section.style.removeProperty("display");
  59. }
  60.  
  61. /**
  62. * 增强按钮1(蓝色按钮:展开文档)的点击效果
  63. */
  64. function enhanceBtnClickReaction() {
  65. var btn_1 = document.getElementsByClassName("init-btn")[0];
  66. btn_1.style.color = "grey";
  67. btn_1.style.fontWeight = "normal";
  68. var changeColor = function() {
  69. btn_1.style.color = "white";
  70. btn_1.style.fontWeight = "bold";
  71. };
  72. setTimeout(changeColor, 500);
  73. }
  74.  
  75. /**
  76. * 用于纯文本文档的文本美化,适用性:百度文库
  77. * @param {string} text
  78. * @returns 美化后的文本
  79. */
  80. function formatText(text) {
  81. var reg_exp_1 = new RegExp(" ?[(]?=[\u4e00-\u9fa5] ?[)]");
  82. var reg_exp_2 = new RegExp("(?<=TEMP[\u4e00-\u9fa5]) ?");
  83. // var reg_exp_3 = new RegExp("(?<=[\u4e00-\u9fa5]) ?(?=[\u4e00-\u9fa5])");
  84.  
  85. var text_1 = text.replace(reg_exp_1, "TEMP");
  86. var text_2 = text_1.replace(reg_exp_2, "");
  87. var text_3 = text_2.replace("TEMP", "");
  88. var text_final = text_3.replace(/ /g, " ");
  89. return text_final;
  90. }
  91.  
  92. /**
  93. * 用于图形文字混合型文档的文本美化,适用性:百度文库
  94. * @param {string} text
  95. * @returns 美化后的文本
  96. */
  97. function formatText2(text) {
  98. var reg_exp = new RegExp("[  ]{2,}");
  99. var content_1 = text.replace(reg_exp, "\n");
  100.  
  101. var content_2 = content_1.replace(/[  ]\n/g, "\n");
  102.  
  103. var reg_exp_2 = new RegExp("\n[   ]*\n*\n");
  104. var content_3 = content_2.replace(reg_exp_2, "\n");
  105.  
  106. var reg_exp_3 = new RegExp(" *\n * ");
  107. var content_4 = content_3.replace(reg_exp_3, "\n");
  108.  
  109. var content_5 = content_4.replace(/[  ]/g, " ");
  110. var final_content = content_5.replace(/[ \n]精选文档[ \n]/g).replace(/\n{2,}/g, "\n");
  111.  
  112. return final_content;
  113. }
  114.  
  115. /**
  116. * 判断文档的详细类型,适用性:百度文库
  117. * @returns 源文档类型-实际内容类型,如: doc-pic-word
  118. */
  119. function detectType() {
  120. // 获取文档类型名称
  121. try {
  122. var doc_title_wrap = document.getElementsByClassName("doc-title-wrap")[0];
  123. var file_type = doc_title_wrap.children[0].className;
  124. } catch (e) {
  125. alert("请刷新页面以激活该按钮。\n先点击【导出pdf】橙色按钮后该按钮将无法使用。");
  126. return "safe_quit";
  127. }
  128. var pdf, doc, ppt, excel, type;
  129. // 判断文档类型
  130. if (file_type.search("word") !== -1) {
  131. type = "word";
  132. } else if (file_type.search("ppt") !== -1) {
  133. type = "ppt";
  134. } else if (file_type.search("excel") !== -1) {
  135. type = "excel";
  136. } else if (file_type.search("pdf") !== -1) {
  137. type = "pdf";
  138. } else if (file_type.search("txt" !== -1)) {
  139. type = "txt";
  140. } else {
  141. type = file_type;
  142. }
  143. // 分别尝试获取相应元素列表,若列表长度为0则不存在相应元素,否则存在
  144. var pic_nums = document.getElementsByClassName("reader-pic-item").length;
  145. var word_nums = document.getElementsByClassName("reader-word-layer").length;
  146. var ppt_img_nums = document.getElementsByClassName("ppt-image-wrap").length;
  147.  
  148. // 判断文档类型、文字和图片的数量状况
  149. if (type === "word" && !word_nums && pic_nums) {
  150. // doc: 纯图片
  151. return "doc-only-pic";
  152. } else if (type === "word" && word_nums > 2 && pic_nums <= 1) {
  153. // doc: 纯文字
  154. return "doc-only-word";
  155. } else if (type === "word" && pic_nums > 2 && word_nums > 2) {
  156. // doc: 图形、文字混合
  157. return "doc-pic-word";
  158. } else if (type === "pdf" && pic_nums > 2 && word_nums === 1) {
  159. // pdf: 带有一行文字标题,之后都是图形
  160. return "pdf-pic-title";
  161. } else if (type === "pdf" && !word_nums && pic_nums) {
  162. // pdf: 纯图形
  163. return "pdf-only-pic";
  164. } else if (type === "pdf" && !pic_nums && word_nums > 1) {
  165. // pdf: 纯文字
  166. return "pdf-only-word";
  167. } else if (type === "pdf" && word_nums > 2 && pic_nums > 1) {
  168. // pdf: 图形、文字混合
  169. return "pdf-pic-word";
  170. } else if ((type === "ppt" && ppt_img_nums > 2) || (type === "pdf" && !word_nums && !pic_nums && ppt_img_nums)) {
  171. // ppt: 包含至少3页内容 / 纯ppt图形页面构成
  172. return "ppt";
  173. } else if (type === "excel" && pic_nums && word_nums > 2) {
  174. // excel: 包含可选中文字
  175. return "excel-only-word";
  176. } else if (type === "excel" && pic_nums && !word_nums) {
  177. // excel: 纯图形
  178. return "excel-only-pic";
  179. } else if (type === "txt") {
  180. // txt: 纯文字
  181. return "txt";
  182. } else {
  183. return {
  184. "源文档类型": type,
  185. "图形数量": pic_nums,
  186. "文字块数量": word_nums,
  187. "ppt纯图形页面数量": ppt_img_nums
  188. };
  189. }
  190. }
  191.  
  192. /**
  193. * 判断文档的详细类型,适用性:得力文库
  194. * @returns 源文档类型-实际内容类型,如: pdf-only-pic
  195. */
  196. function detectTypeDeliwenku() {
  197. // 判断源文档类型
  198. var type_element = document.querySelector("img[alt=类型]");
  199. var file_type = type_element.className;
  200. // 判断内容类型
  201. var page_nums = document.querySelectorAll(".inner_page div").length;
  202.  
  203. if (file_type === "pdf" && page_nums > 0) {
  204. return "pdf-only-pic";
  205. } else {
  206. return {
  207. "源文档类型": file_type,
  208. "页面数量": page_nums
  209. };
  210. }
  211. }
  212.  
  213. /**
  214. * 用try移除元素
  215. * @param {*} element
  216. */
  217. function tryToRemoveElement(element) {
  218. try {
  219. element.remove();
  220. } catch (e) {
  221. console.log();
  222. }
  223. }
  224.  
  225. /**
  226. * 用try移除 [元素列表1, 元素列表2, ...] 的元素
  227. * @param {*} elem_list_box
  228. */
  229. function tryToRemoveSameElem(elem_list_box) {
  230. for (var elem_list of elem_list_box) {
  231. if (!elem_list) {
  232. continue;
  233. }
  234. for (var elem of elem_list) {
  235. try {
  236. elem.remove();
  237. } catch (e) {
  238. console.log();
  239. }
  240. }
  241. }
  242. }
  243.  
  244. /**
  245. * 使文档在页面上居中
  246. * @param {string} class_name 文档元素的class
  247. * @param {string} default_offset 文档部分向右偏移的百分比(0-59)
  248. * @returns 偏移值是否合法
  249. */
  250. function centerDoc(class_name, default_offset) {
  251. var doc_main = document.getElementsByClassName(class_name)[0];
  252. var offset = window.prompt("请输入偏移百分位:", default_offset);
  253. // 如果输入的数字不在 0-59 内,提醒用户重新设置
  254. if (offset.length === 1 && offset.search(/[0-9]/) !== -1) {
  255. doc_main.style.marginLeft = offset + "%";
  256. return true;
  257. } else if (offset.length === 2 && offset.search(/[1-5][0-9]/) !== -1) {
  258. doc_main.style.marginLeft = offset + "%";
  259. return true
  260. } else {
  261. alert("请输入一个正整数,范围在0至59之间,用来使文档居中\n(不同文档偏移量不同,所以需要手动调整)");
  262. return false;
  263. }
  264. }
  265.  
  266. /**
  267. * 提示文档已经展开,改变按钮形态:隐去按钮1,显示按钮2
  268. */
  269. function transformButtons() {
  270. var hint = "文档已经完全展开,可以导出";
  271. alert(hint);
  272. // 准备调整按钮,先获取按钮
  273. var btn_1 = document.getElementsByClassName("init-btn")[0];
  274. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  275. // 调整按钮显示状况
  276. btn_1.style.display = "none";
  277. btn_2.style.removeProperty("display");
  278. }
  279.  
  280. /*
  281. * 主要功能函数部分
  282. */
  283.  
  284. /**
  285. * 清理并打得力文库的文档页
  286. */
  287. function printPageDeliwenku() {
  288. // 移除页面上的无关元素
  289. var selector = ".hr-wrap, #readshop, .nav_uis, .bookdesc, #boxright, .QQ_S1, .QQ_S, #outer_page_more, .works-manage-box.shenshu, .works-intro, .mt10.related-pic-box, .mt10.works-comment, .foot_nav, .siteInner";
  290. var elem_list = document.querySelectorAll(selector);
  291. for (var elem of elem_list) {
  292. tryToRemoveElement(elem);
  293. }
  294. // 修改页间距
  295. var outer_pages = document.getElementsByClassName("outer_page");
  296. for (var page of outer_pages) {
  297. page.style.marginBottom = "20px";
  298. }
  299. // 使文档居中
  300. alert("建议使用:\n偏移量: 3\n缩放: 112\n如果预览时有空白页,请取消打印\n请上下滚动页面,确保每页内容都加载完成");
  301. if (!centerDoc("boxleft", "3")) {
  302. return; // 如果输入非法,终止函数调用
  303. }
  304. // 打印文档
  305. hiddenThenPrint();
  306. }
  307.  
  308. /**
  309. * 清理并打印豆丁网的文档页
  310. */
  311. function printPageDocin() {
  312. // # 清理并打印豆丁网的文档页
  313. // ## 选择指针光标
  314. try { document.getElementById("j_select").click(); } catch (e) { console.log(); }
  315. // ## 移除页面上无关的元素
  316. // ### 移除单个元素
  317. var doc_head = document.getElementsByClassName("doc_header_mod")[0];
  318. var head_wrapper = document.getElementsByClassName("head_wrapper")[0];
  319. var aside = document.getElementsByClassName("aside")[0];
  320. var slide = document.getElementById("docinShareSlider");
  321. var no_more = document.getElementsByClassName("no_more_mod")[0];
  322. var like_too = document.getElementById("likeToo");
  323. var tools_bottom_bar = document.getElementsByClassName("tools_bottom_bar")[0];
  324. var page_crubms = document.getElementsByClassName("page_crubms")[0];
  325. var bottom_ad = document.getElementById("jControlDivRecomm");
  326. var back_to_top = document.getElementsByClassName("backToTop")[0];
  327. var transparent_mask = document.querySelector(".reader_tools_bar_wrap.tools_bar_small.clear");
  328. // ### 执行移除
  329. var elem_list = [doc_head,
  330. head_wrapper,
  331. aside,
  332. slide,
  333. no_more,
  334. like_too,
  335. tools_bottom_bar,
  336. page_crubms,
  337. bottom_ad,
  338. back_to_top,
  339. transparent_mask
  340. ];
  341. for (var elem of elem_list) {
  342. tryToRemoveElement(elem);
  343. }
  344. // ### 移除全部同类元素
  345. var ad_box = document.getElementsByClassName("adBox");
  346. tryToRemoveSameElem([ad_box]);
  347. // 使文档居中
  348. var doc = document.getElementsByClassName("main")[0];
  349. doc.style.marginLeft = "6%";
  350. // 隐藏按钮,然后打印页面
  351. alert("如果预览时有空白页,请取消打印\n请上下滚动页面,确保每页内容都加载完成\n如果预览时文末有广告或按钮,请取消打印,再点一次按钮\n最多不超过2次,应该就没有了");
  352. hiddenThenPrint();
  353. }
  354.  
  355. /**
  356. * 清理并打印爱问共享资料的文档页
  357. * @returns 如果输入偏移量非法,返回空值以终止函数
  358. */
  359. function printPageiShare() {
  360. // # 清理并打印爱问共享资料的文档页
  361. // ## 移除页面上无关的元素
  362. // ### 移除单个元素
  363. var topbanner = document.getElementsByClassName("detail-topbanner")[0];
  364. var header = document.getElementsByClassName("new-detail-header")[0];
  365. var fixright = document.getElementById("fix-right");
  366. var redpacket = document.getElementsByClassName("loginRedPacket-dialog")[0];
  367. var fixedrightfull = document.getElementsByClassName("fixed-right-full")[0];
  368. var footer = document.getElementsByClassName("website-footer")[0];
  369. var guess = document.getElementsByClassName("guess-you-like-warpper")[0];
  370. var detailtopbox = document.getElementsByClassName("detail-top-box")[0];
  371. var fullscreen = document.getElementsByClassName("reader-fullScreen")[0];
  372. var endhint = document.getElementsByClassName("endof-trial-reading")[0];
  373. var crumb_arrow;
  374. try { crumb_arrow = document.getElementsByClassName("crumb-arrow")[0].parentElement; } catch (e) { console.log(); }
  375. var copyright = document.getElementsByClassName("copyright-container")[0];
  376. var state_btn = document.getElementsByClassName("state-bottom")[0];
  377. var comments = document.getElementsByClassName("user-comments-wrapper")[0];
  378. // ### 执行移除
  379. var elem_list = [
  380. topbanner,
  381. header,
  382. fixright,
  383. redpacket,
  384. fixedrightfull,
  385. footer,
  386. guess,
  387. detailtopbox,
  388. fullscreen,
  389. endhint,
  390. crumb_arrow,
  391. copyright,
  392. state_btn,
  393. comments
  394. ];
  395. for (var elem of elem_list) {
  396. tryToRemoveElement(elem);
  397. }
  398. // ### 移除全部同类元素
  399. var adv_container = document.getElementsByClassName("adv-container");
  400. tryToRemoveSameElem([adv_container]);
  401. // 使文档居中
  402. alert("建议使用:\n偏移量: 18\n缩放: 默认\n如果预览中有广告,就取消打印\n再点一次按钮,预览中应该就没有广告了");
  403. if (!centerDoc("doc-main", "18")) {
  404. return; // 如果输入非法,终止函数调用
  405. }
  406. // 隐藏按钮,然后打印页面
  407. hiddenThenPrint();
  408. }
  409.  
  410. /**
  411. * 清理并打百度文库的文档页
  412. * @returns 如果输入偏移量非法,返回空值以终止函数
  413. */
  414. function printPageBaidu() {
  415. // # 清理并打百度文库的文档页
  416. // ## 移除无关页面元素
  417. // ### 要移除的单个元素
  418. var header_wrapper = document.getElementsByClassName("header-wrapper")[0];
  419. var right_wrapper = document.getElementById("right-wrapper-id");
  420. var reader_topbar = document.getElementsByClassName("reader-topbar")[0];
  421. var end_fold_page = document.getElementsByClassName("try-end-fold-page")[0];
  422. var catalog = document.querySelector(".catalog");
  423. var bottom = document.querySelector(".journal");
  424.  
  425. var elem_list = [
  426. header_wrapper,
  427. right_wrapper,
  428. reader_topbar,
  429. end_fold_page,
  430. catalog,
  431. bottom
  432. ]
  433. for (var elem of elem_list) {
  434. tryToRemoveElement(elem);
  435. }
  436. // ### 移除全部同类元素
  437. var lazy_load_list = document.getElementsByClassName("lazy-load");
  438. var no_full_screen_list = document.getElementsByClassName("no-full-screen");
  439. var ads = document.getElementsByClassName("hx-warp");
  440.  
  441. tryToRemoveSameElem([lazy_load_list, ads, no_full_screen_list]);
  442.  
  443. // ## 文档类型测试
  444. // ### 常规文档测试
  445. var normal = Boolean(document.getElementsByClassName("left-wrapper")[0]);
  446. // ### 文献/期刊文档测试
  447. var journal = Boolean(document.getElementById("#journal-view"))
  448. var class_name;
  449. if (normal) {
  450. class_name = "left-wrapper";
  451. } else if (journal) {
  452. class_name = "right-wrapper";
  453. } else {
  454. alert("文档部分元素class不为left-wrapper,且id不为journal-view\n是未知文档类型,无法处理,请联系作者\nQQ: 2690874578\nEmail: allenlv2690@gmail.com");
  455. }
  456.  
  457. // 使文档居中
  458. alert("建议使用:\n偏移量: 0\n缩放: 118%");
  459. if (!centerDoc(class_name, "0")) {
  460. return; // 如果输入非法,退出函数调用
  461. }
  462. // 隐藏按钮,然后打印页面
  463. hiddenThenPrint();
  464. }
  465.  
  466. /**
  467. * 创建“打印页面到PDF”按钮
  468. */
  469. function createPrintPageBtn(printPageWebsite) {
  470. var btn_3 = document.createElement("button");
  471. // 样式设定
  472. btn_3.setAttribute("class", "save-html-btn");
  473. btn_3.style.height = "25px";
  474. btn_3.style.width = "15%";
  475. btn_3.style.marginLeft = "0.2%";
  476. btn_3.style.backgroundColor = "orange";
  477. btn_3.style.border = "none";
  478. btn_3.textContent = "导出pdf";
  479. btn_3.style.fontWeight = "bold";
  480. btn_3.style.borderRadius = "10%";
  481. // 绑定事件,添加到页面上
  482. btn_3.onclick = printPageWebsite;
  483. var section = document.getElementsByClassName("btns_section")[0];
  484. section.appendChild(btn_3);
  485. }
  486.  
  487. /**
  488. * 点击“继续阅读”,适用性:得力文库
  489. */
  490. function readAllDeliwenku() {
  491. // 点击“同意并开始预览全文”
  492. var start_btn = document.getElementsByClassName("pre_button")[0];
  493. var display = start_btn.parentElement.parentElement.style.display;
  494. // 如果该按钮显示着,则点击,然后滚动至页面底部,最后终止函数
  495. if (!display) {
  496. start_btn.children[0].click();
  497. setTimeout("scroll(0, document.body.scrollHeight)", 500);
  498. return;
  499. }
  500. // 增强按钮点击效果
  501. enhanceBtnClickReaction();
  502.  
  503. var read_all_btn = document.getElementsByClassName("fc2e")[0];
  504. var display2 = read_all_btn.parentElement.parentElement.style.display
  505. // 继续阅读
  506. if (display2 !== "none") {
  507. read_all_btn.click();
  508. // 变幻页码颜色以提示展开进度
  509. var page_num = document.getElementById("pageNumInput");
  510. var colors = ["red", "orange", "blue", "green", "purple", "pink", "yellow"];
  511. var n = colors.length;
  512. page_num.style.color = colors[Math.floor(n * Math.random())];
  513. // 加粗、倾斜字体,然后放大0.5秒
  514. page_num.style.fontStyle = "italic";
  515. page_num.style.fontWeight = "bold";
  516. page_num.style.fontSize = "150%";
  517. var changeSize = function() { page_num.style.fontSize = "100%"; };
  518. setTimeout(changeSize, 500);
  519.  
  520. // 切换按钮准备导出
  521. } else {
  522. var hint = "文档已经完全展开,可以导出";
  523. alert(hint);
  524. // 准备调整按钮,先获取按钮
  525. var btn_1 = document.getElementsByClassName("init-btn")[0];
  526. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  527. // 调整按钮显示状况: 隐去蓝色按钮,显出绿色按钮和橙色按钮
  528. btn_1.style.display = "none";
  529. btn_2.style.width = "34.8%";
  530. btn_2.style.removeProperty("display");
  531. // btn_3 橙色按钮
  532. createPrintPageBtn(printPageDeliwenku);
  533.  
  534. var type = detectTypeDeliwenku();
  535.  
  536. // 纯文字类型文档推荐导出纯文本
  537. if (type === "doc-only-word" ||
  538. type === "pdf-only-word") {
  539. btn_2.textContent += "(推荐)";
  540. }
  541. // 纯图类型文档推荐导出图片链接再拼合为PDF
  542. else if (type === "pdf-only-pic") {
  543. btn_2.textContent = "导出图片链接来合并为PDF(推荐)";
  544. }
  545. // 其他类型应该是图文混合型,推荐打印页面导出PDF
  546. else {
  547. var btn_3 = document.getElementsByClassName("save-html-btn")[0];
  548. btn_3.textContent += "(推荐)";
  549. }
  550. }
  551. }
  552.  
  553. /**
  554. * 点击“展开继续阅读”,适用性:爱尚共享资料
  555. */
  556. function readAlliShare() {
  557. // 获取“继续阅读”元素
  558. var red_btn = document.getElementsByClassName("red-color")[0];
  559. var red_text = red_btn.textContent;
  560. // 增强按钮点击效果
  561. enhanceBtnClickReaction();
  562. // 如果可以展开,则展开
  563. if (red_text.search("点击可继续阅读") !== -1) {
  564. red_btn.click();
  565. }
  566. // 否则启动按钮2,准备清理页面然后打印为PDF
  567. else {
  568. transformButtons();
  569. }
  570. }
  571.  
  572. /**
  573. * 点击“继续阅读”,适用性:百度文库
  574. * @returns 特殊文档类型不予下载,返回空值
  575. */
  576. function readAll() {
  577. // 获取“继续阅读”按钮
  578. var read_all_btn = document.getElementsByClassName("read-all")[0];
  579. // 增强按钮点击效果
  580. enhanceBtnClickReaction();
  581. // 如果存在“继续阅读”的按钮
  582. if (read_all_btn) {
  583. // 跳转到文末(等同于展开全文)
  584. // read_all_btn.click();
  585. var cur_page = document.getElementsByClassName("cur-page")[0];
  586. // 取得最大页码
  587. var page_max = cur_page.parentElement.children[2];
  588. // 设置跳转页码为最大页码
  589. cur_page.value = page_max;
  590. // 模拟回车事件来跳转
  591. var keyboard_event_enter = new KeyboardEvent('keyup', {
  592. bubbles: true,
  593. cancelable: true,
  594. keyCode: 13
  595. });
  596. cur_page.dispatchEvent(keyboard_event_enter);
  597. // 否则认为已经展开了文档,判断文档类型,然后显示对应的按钮
  598. } else {
  599. var hint = "文档已经完全展开,可以导出";
  600. alert(hint);
  601. try {
  602. // 判断文档类型
  603. var type = detectType();
  604. } catch (e) {
  605. alert("未知/特殊文档类型,例如学术文献,暂不支持下载\n也可与作者反馈或联系:\nallenlv2690@gmail.com");
  606. return undefined;
  607. }
  608. // 准备调整按钮,先获取按钮
  609. var init_btn = document.getElementsByClassName("init-btn")[0];
  610. var save_doc_btn = document.getElementsByClassName("save-doc-btn")[0];
  611.  
  612. // 添加导出pdf功能的按钮
  613. save_doc_btn.style.width = "34.8%";
  614. createPrintPageBtn(printPageBaidu);
  615. // 纯文字类型文档推荐导出纯文本
  616. if (type === "doc-only-word" ||
  617. type === "pdf-only-word") {
  618. save_doc_btn.textContent += "(推荐)";
  619. }
  620. // 纯图类型文档推荐导出图片链接再拼合为PDF
  621. else if (type === "doc-only-pic" ||
  622. type === "pdf-pic-title" ||
  623. type === "ppt" ||
  624. type === "pdf-only-pic" ||
  625. type === "excel-only-pic") {
  626. save_doc_btn.textContent = "导出图片链接来合并为PDF(推荐)";
  627. }
  628. // 其他类型应该是图文混合型,推荐导出PDF
  629. else {
  630. var print_page_btn = document.getElementsByClassName("save-html-btn")[0];
  631. print_page_btn.textContent += "(推荐)";
  632. }
  633. // 调整按钮显示状况
  634. save_doc_btn.style.removeProperty("display");
  635. init_btn.style.display = "none";
  636. }
  637. }
  638.  
  639. /**
  640. * 存储非PPT文档的png图形链接,适用性:百度文库
  641. */
  642. function savePDFData() {
  643. var pic_urls = document.getElementsByClassName("reader-pic-item");
  644. var text_list = [];
  645. // 去掉前缀
  646. var reg_exp_1 = new RegExp(": ?url[(]");
  647. // 去掉后缀
  648. var reg_exp_2 = new RegExp("[)]; ?background-position");
  649.  
  650. for (var i = 0; i < pic_urls.length; i++) {
  651. var whole_text = pic_urls[i].getAttribute("style");
  652. var de_pretext = whole_text.split(reg_exp_1)[1];
  653. var url = de_pretext.split(reg_exp_2)[0];
  654. text_list.push(url);
  655. }
  656.  
  657. text_list[0] = text_list[0].replace(/"/g, "");
  658. var content = text_list.join("\n");
  659. // 启动下载
  660. createAndDownloadFile("urls.csv", content);
  661. }
  662.  
  663. /**
  664. * 存储纯文本,适用性:百度文库
  665. */
  666. function saveDocData() {
  667. // 获取文本
  668. var text_elements = document.getElementsByClassName("reader-word-layer");
  669. var texts = [];
  670. for (var elem of text_elements) {
  671. texts.push(elem.textContent);
  672. }
  673. // 美化后导出文本
  674. var origin_content = texts.join("");
  675. var content = formatText(origin_content);
  676. createAndDownloadFile("纯文本文档.txt", content);
  677. }
  678.  
  679. /**
  680. * 存储PPT图像链接,适用性:百度文库
  681. */
  682. function savePPTData() {
  683. // 存储ppt型data(内容是pic)
  684. // alert("Function savePPTData was called.");
  685. var pic_elements = document.getElementsByClassName("ppt-image-wrap");
  686. var pic_urls = [];
  687.  
  688. for (var elem of pic_elements) {
  689. var pic_obj = elem.children[0];
  690. var url = pic_obj.src;
  691. pic_urls.push(url);
  692. }
  693. var content = pic_urls.join("\n");
  694. // 启动下载
  695. createAndDownloadFile("urls.csv", content);
  696. }
  697.  
  698. /**
  699. * 存储文字型表格,适用性:百度文库
  700. */
  701. function saveExcelData() {
  702. // 1. 拿到表格
  703. var table_pic = document.getElementsByClassName("reader-pic-item")[0];
  704. var url = table_pic.style.getPropertyValue("background-image");
  705. // 获取图片地址
  706. var pure_url = url.slice(5, -2);
  707.  
  708. // 2. 拿到表格内文字信息
  709. var text_elems = document.getElementsByClassName("reader-word-layer");
  710. var text_list = [];
  711. for (var elem of text_elems) {
  712. text_list.push(elem.textContent);
  713. }
  714. var _text = text_list.join("\n");
  715. // 替换奇怪的空格
  716. var text = _text.replace(/ /g, " ");
  717.  
  718. // 3. 合并至一个字符串,然后导出
  719. var head = "表格图形链接如下(复制到浏览器中打开):";
  720. var content = head + "\n\n" + pure_url + "\n\n" + text;
  721. createAndDownloadFile("图片地址和表格内容.txt", content);
  722. }
  723.  
  724. /**
  725. * 对于文字和图形混合型的data只能存储其中的纯文字\
  726. * 适用性:百度文库
  727. */
  728. function saveDocAndPicData() {
  729. // 获取文本
  730. var text_elements = document.getElementsByClassName("reader-word-layer");
  731. var texts = [];
  732. for (var elem of text_elements) {
  733. texts.push(elem.textContent);
  734. }
  735. var origin_content = texts.join("");
  736. // 美化后导出文本
  737. var content = formatText2(origin_content);
  738. createAndDownloadFile("纯文本文档.txt", content);
  739. }
  740.  
  741. /**
  742. * 存储纯文本到本地,适用性:百度文库
  743. */
  744. function saveTxtData() {
  745. var text_elements = document.getElementsByClassName("p-txt");
  746. var texts = [];
  747. for (var elem of text_elements) {
  748. texts.push(elem.textContent);
  749. }
  750. var content = texts.join("");
  751. createAndDownloadFile("纯文本文档.txt", content);
  752. }
  753.  
  754. /**
  755. * 按文档类型,用对应方法储存数据到本地,适用性:百度文库
  756. * @returns 特殊情况下返回空值,表示安全退出
  757. */
  758. function saveData() {
  759. var type = detectType();
  760. if (type === "doc-only-pic" ||
  761. type === "pdf-pic-title" ||
  762. type === "pdf-only-pic" ||
  763. type === "excel-only-pic") {
  764. // 对于纯图形文档,都用【图片下载合并器】来处理
  765. savePDFData();
  766. } else if (type === "doc-only-word" ||
  767. type === "doc-pic-word" ||
  768. type === "pdf-only-word" ||
  769. type === "pdf-pic-word") {
  770. // 对于包含大量文字、且非表格的文档,直接提出纯文本
  771. saveDocData();
  772. } else if (type === "ppt") {
  773. // ppt按类似于纯图文档的方法处理
  774. savePPTData();
  775. } else if (type === "excel-only-word") {
  776. // excel仅保存其中的纯文字
  777. saveExcelData();
  778. } else if (type === "txt") {
  779. // txt直接保存
  780. saveTxtData();
  781. } else if (type === "safe_quit") {
  782. // 安全退出
  783. return;
  784. } else {
  785. var info = [];
  786. for (var key in type) {
  787. info.push(key + " : " + type[key]);
  788. }
  789. alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  790. }
  791. }
  792.  
  793. /**
  794. * 下载全部图片链接,适用性:得力文库
  795. */
  796. function savePicUrls() {
  797. var pages = document.querySelectorAll(".inner_page div");
  798. var pic_urls = [];
  799.  
  800. for (var elem of pages) {
  801. var pic_obj = elem.children[0];
  802. var url = pic_obj.src;
  803. pic_urls.push(url);
  804. }
  805. var content = pic_urls.join("\n");
  806. // 启动下载
  807. createAndDownloadFile("urls.csv", content);
  808. }
  809.  
  810. /**
  811. * 按文档类型,用对应方法储存数据到本地,适用性:得力文库
  812. */
  813. function saveDataDeliwenku() {
  814. var type = detectTypeDeliwenku();
  815. if (type === "pdf-only-pic") {
  816. savePicUrls();
  817. } else {
  818. var info = [];
  819. for (var key in type) {
  820. info.push(key + " : " + type[key]);
  821. }
  822. alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  823. }
  824. }
  825.  
  826. /**
  827. * 创建两个初始按钮:展开文档、存储文档
  828. * @returns
  829. */
  830. function create2btns() {
  831. // 创建脚本启动按钮1、2
  832. var btn_1 = document.createElement("button");
  833. var btn_2 = document.createElement("button");
  834.  
  835. // 设定按钮1、2样式
  836. btn_1.setAttribute("class", "init-btn");
  837. btn_1.style.height = "25px";
  838. btn_1.style.width = "50%";
  839. btn_1.style.marginLeft = "25%";
  840. btn_1.style.border = "none";
  841. btn_1.style.backgroundColor = "blue";
  842. btn_1.style.color = "white";
  843. btn_1.style.fontWeight = "bold";
  844. btn_1.textContent = "展开文档";
  845.  
  846. btn_2.setAttribute("class", "save-doc-btn");
  847. btn_2.style.height = "25px";
  848. btn_2.style.width = "50%";
  849. btn_2.style.marginLeft = "25%";
  850. btn_2.style.backgroundColor = "green";
  851. btn_2.style.border = "none";
  852. btn_2.style.display = "none";
  853. btn_2.style.color = "white";
  854. btn_2.style.fontWeight = "bold";
  855.  
  856. // 添加按钮元素到页面
  857. var section = document.createElement("section");
  858. section.setAttribute("class", "btns_section");
  859. section.appendChild(btn_1);
  860. section.appendChild(btn_2);
  861. document.body.appendChild(section);
  862. // 返回元素引用
  863. return [btn_1, btn_2]
  864. }
  865.  
  866. /*
  867. * 主函数部分
  868. */
  869.  
  870. /**
  871. * 百度文库文档下载策略
  872. */
  873. function baiduWenku() {
  874. // 创建脚本启动按钮1、2
  875. var [btn_1, btn_2] = create2btns();
  876. btn_2.textContent = "导出纯文本";
  877.  
  878. // 绑定主函数
  879. btn_1.onclick = readAll;
  880. btn_2.onclick = saveData;
  881.  
  882. // 解除打印限制
  883. allowPrint();
  884. }
  885.  
  886. /**
  887. * 豆丁文档下载策略
  888. */
  889. function docin() {
  890. // 创建脚本启动按钮
  891. var [btn_1, btn_2] = create2btns();
  892. btn_1.remove();
  893. btn_2.textContent = "打印页面到PDF";
  894. btn_2.style.removeProperty("display");
  895. // 绑定主函数
  896. btn_2.onclick = printPageDocin;
  897. }
  898.  
  899. /**
  900. * 爱问共享资料文档下载策略
  901. */
  902. function ishare() {
  903. // 创建脚本启动按钮1、2
  904. var [btn_1, btn_2] = create2btns();
  905. btn_2.textContent = "打印页面到PDF";
  906.  
  907. // 绑定主函数
  908. btn_1.onclick = readAlliShare;
  909. btn_2.onclick = printPageiShare;
  910.  
  911. // 移除底部下载条
  912. var detailfixed = document.getElementsByClassName("detail-fixed")[0];
  913. detailfixed.remove();
  914. }
  915.  
  916. /**
  917. * 得力文库文档下载策略
  918. */
  919. function deliwenku() {
  920. // 创建脚本启动按钮1、2
  921. var [btn_1, btn_2] = create2btns();
  922. btn_2.textContent = "打印页面到PDF";
  923.  
  924. // 绑定主函数
  925. btn_1.onclick = readAllDeliwenku;
  926. btn_2.onclick = saveDataDeliwenku;
  927.  
  928. // 尝试关闭页面弹窗
  929. try { document.querySelector("div[title=点击关闭]").click(); } catch (e) { console.log(0); }
  930. // 解除打印限制
  931. allowPrint();
  932. }
  933.  
  934. /**
  935. * 主函数:识别网站,执行对应文档下载策略
  936. */
  937. function main() {
  938. var host = window.location.host;
  939. if (host === "wenku.baidu.com") {
  940. baiduWenku();
  941. } else if (host === "www.docin.com") {
  942. docin();
  943. } else if (host === "ishare.iask.sina.com.cn") {
  944. ishare();
  945. } else if (host === "www.deliwenku.com") {
  946. deliwenku();
  947. } else {
  948. console.log("匹配到了无效网页");
  949. }
  950. }
  951.  
  952. window.onload = main;

QingJ © 2025

镜像随时可能失效,请加Q群300939539或关注我们的公众号极客氢云获取最新地址