2025-2026第一學期數(shù)據(jù)采集及網(wǎng)絡(luò)爬蟲重修考試

您的姓名：

1.下列哪種技術(shù)不屬于網(wǎng)絡(luò)爬蟲的核心組件?（）

A.請求發(fā)送模塊B.數(shù)據(jù)解析模塊C. 數(shù)據(jù)庫設(shè)計模塊D. 反爬應對模塊

2.爬蟲發(fā)送 HTTP 請求時，若需攜帶用戶登錄后的身份信息，最常用的方式是（）

A.放入 URL 參數(shù)B.存入 CookieC.寫入請求頭 User-AgentD. 用 POST 請求體傳遞

3.下列哪種解析方式最適合提取 HTML 中的結(jié)構(gòu)化數(shù)據(jù)（如表格、列表）?（）

A.正則表達式B.BeautifulSoupC.字符串切片D. JSONPath

4.關(guān)于帶頭結(jié)點的單鏈表插入操作，下列說法正確的是（）

A.插入位置 i 的合法范圍是 1≤i≤鏈表長度B.無需遍歷鏈表即可直接插入C.頭結(jié)點不存儲實際數(shù)據(jù)D. 插入到尾部時無需判斷尾節(jié)點

5.爬蟲遇到 “403 Forbidden” 響應，最可能的原因是（）

A.目標服務(wù)器宕機B.爬蟲被服務(wù)器識別并禁止訪問C.請求的 URL 不存在D. 網(wǎng)絡(luò)連接超時

6.下列哪種反爬機制是通過驗證用戶行為合法性實現(xiàn)的?（）

A.動態(tài) HTML 渲染B.IP 封禁C.驗證碼（CAPTCHA）D. 數(shù)據(jù)加密傳輸

7.使用 Scrapy 框架時，負責調(diào)度請求的組件是（）

A.SpiderB.SchedulerC.DownloaderD. Item Pipeline

8.若需爬取動態(tài)加載的 JavaScript 數(shù)據(jù)，最有效的方式是（）

A.直接解析 HTML 源碼B.使用 Selenium 模擬瀏覽器C.僅發(fā)送 HTTP GET 請求D. 解析 robots.txt 文件

9.爬蟲遵守 robots.txt 協(xié)議的目的是（）

A.提高爬取速度B.避免觸發(fā)反爬機制C.尊重網(wǎng)站爬取規(guī)則D. 確保數(shù)據(jù)完整性

10.下列哪種數(shù)據(jù)格式最適合存儲爬蟲爬取的結(jié)構(gòu)化數(shù)據(jù)?（）

A.TXTB.CSVC.二進制文件D. 日志文件

11.關(guān)于 HTTP 請求中的 User-Agent，下列說法錯誤的是（）

A.用于標識請求的客戶端類型B.爬蟲可通過修改 User-Agent 模擬瀏覽器C.服務(wù)器無法通過 User-Agent 識別爬蟲D. 缺失 User-Agent 可能被服務(wù)器拒絕

12.爬取大量數(shù)據(jù)時，設(shè)置請求間隔（sleep）的主要目的是（）

A.減少本地資源占用B.避免給目標服務(wù)器造成過大壓力C.提高數(shù)據(jù)解析效率D. 防止 Cookie 失效

13.下列哪種情況屬于非法爬蟲行為?（）

A.爬取公開的新聞資訊B.未經(jīng)允許爬取用戶隱私數(shù)據(jù)C.遵守 robots.txt 爬取公開數(shù)據(jù)D. 合理設(shè)置請求頻率爬取公開商品信息

14.使用 BeautifulSoup 解析 HTML 時，若需根據(jù)標簽名和 class 屬性提取元素，應使用的方法是（）

A.find()B.text()C.get()D. encode()

15.爬蟲中使用代理 IP 的主要作用是（）

A.提高爬取速度B.隱藏真實 IP，避免被封禁C.簡化請求流程D. 加密傳輸數(shù)據(jù)

16.關(guān)于 POST 請求和 GET 請求的區(qū)別，下列說法正確的是（）

A.GET 請求不能攜帶參數(shù)B.POST 請求的參數(shù)存儲在 URL 中C.POST 請求更適合傳輸大量數(shù)據(jù)D. GET 請求的響應速度一定比 POST 快

17.若爬蟲爬取的數(shù)據(jù)出現(xiàn)缺失或重復，最可能的原因是（）

A.目標網(wǎng)站無反爬機制B.未處理請求失敗的情況C.解析規(guī)則過于嚴格D. 爬取線程數(shù)過少

18.Scrapy 框架中，Item Pipeline 的主要作用是（）

A.發(fā)送 HTTP 請求B.解析響應數(shù)據(jù)C.處理爬取到的 Item 數(shù)據(jù)（存儲、去重等）D. 調(diào)度請求隊列

19.下列哪種技術(shù)不能用于應對 “動態(tài) HTML 渲染” 的反爬?（）

A.SeleniumB.PlaywrightC.PyppeteerD. Requests

20.爬蟲開發(fā)中，“會話保持” 的核心目的是（）

A.維持與服務(wù)器的長連接B.保存 Cookie，保持登錄狀態(tài)C.提高請求響應速度D. 減少請求次數(shù)

21.關(guān)于網(wǎng)絡(luò)爬蟲的合法性，下列說法正確的是（）

A.所有公開網(wǎng)站的數(shù)據(jù)都可隨意爬取B.爬取數(shù)據(jù)用于商業(yè)用途一定違法C.遵守網(wǎng)站規(guī)則、不侵犯隱私的爬取行為通常合法D. 使用代理 IP 爬取數(shù)據(jù)必然違法

22.若需爬取分頁數(shù)據(jù)，且分頁參數(shù)在 URL 中（如 page=1,page=2），最適合的爬取方式是（）

A.遞歸爬取B.循環(huán)構(gòu)造分頁 URL 請求C.模擬點擊分頁按鈕D. 解析 robots.txt 獲取分頁規(guī)則

23.下列哪種錯誤是爬蟲開發(fā)中最常見的反爬觸發(fā)原因?（）

A.解析數(shù)據(jù)格式錯誤B.請求頻率過高C.本地網(wǎng)絡(luò)中斷D. 代碼語法錯誤

24.使用 requests 庫發(fā)送 POST 請求時，若需傳遞表單數(shù)據(jù)，應使用的參數(shù)是（）

A.paramsB.dataC.jsonD. headers

25.關(guān)于帶頭結(jié)點單鏈表的插入操作，若插入位置 i=1，下列說法正確的是（）

A.新節(jié)點插入到頭結(jié)點之前B.新節(jié)點插入到頭結(jié)點之后，成為第一個數(shù)據(jù)節(jié)點C.需遍歷整個鏈表找到插入位置D. 插入后鏈表長度不變

1.網(wǎng)絡(luò)爬蟲爬取的數(shù)據(jù)只要是公開的，就可以無限制用于商業(yè)用途。

對錯

2.帶頭結(jié)點的單鏈表中，頭結(jié)點存儲實際業(yè)務(wù)數(shù)據(jù)。

對錯

3.爬蟲設(shè)置 User-Agent 為瀏覽器標識后，就不會被服務(wù)器識別為爬蟲。

對錯

4.BeautifulSoup 可以直接解析動態(tài)加載的 JavaScript 數(shù)據(jù)。

對錯

5.爬取大量數(shù)據(jù)時，使用多線程爬取一定會比單線程快。

對錯

6.帶頭結(jié)點單鏈表的插入操作中，插入位置 i = 鏈表長度 + 1 時，新節(jié)點成為尾節(jié)點。

對錯

7.Scrapy 框架是一個異步爬蟲框架，效率高于 requests 庫的同步爬取。

對錯

8.robots.txt 協(xié)議是強制約束，爬蟲必須遵守，否則會觸犯法律。

對錯

9.爬蟲使用代理 IP 時，無需考慮代理 IP 的合法性和穩(wěn)定性。

對錯

10.帶頭結(jié)點單鏈表的插入操作中，若 i 或 i > 鏈表長度 + 1，屬于非法位置，無法插入。

對錯

設(shè)計并實現(xiàn)一個基于 Python 的簡單網(wǎng)絡(luò)爬蟲，要求如下：

1. 爬取目標：某公開博客網(wǎng)站的文章列表（假設(shè)目標 URL 為https://www.cnki.net/，頁面為靜態(tài) HTML，無反爬機制）；

2. 爬取內(nèi)容：每篇文章的標題、發(fā)布時間、作者、文章鏈接；

3. 技術(shù)要求：使用 requests 庫發(fā)送請求，BeautifulSoup 庫解析數(shù)據(jù)；

4. 功能要求：

（1）正確發(fā)送 HTTP 請求并獲取頁面響應；

（2）準確解析目標數(shù)據(jù)（需考慮 HTML 標簽結(jié)構(gòu)合理性，自行假設(shè)標簽規(guī)則，如標題在標簽中）；

（3）將爬取到的結(jié)構(gòu)化數(shù)據(jù)保存到 CSV 文件中；

（4）處理常見異常（如網(wǎng)絡(luò)連接失敗、頁面解析失?。?/p>

5. 提交要求：

（1）寫出完整的 Python 代碼（需添加必要注釋）；

（2）簡要說明代碼的核心邏輯和關(guān)鍵步驟。

更多問卷復制此問卷