設(shè)計并實現(xiàn)一個基于 Python 的簡單網(wǎng)絡(luò)爬蟲,要求如下:
1. 爬取目標:某公開博客網(wǎng)站的文章列表(假設(shè)目標 URL 為https://www.cnki.net/,頁面為靜態(tài) HTML,無反爬機制);
2. 爬取內(nèi)容:每篇文章的標題、發(fā)布時間、作者、文章鏈接;
3. 技術(shù)要求:使用 requests 庫發(fā)送請求,BeautifulSoup 庫解析數(shù)據(jù);
4. 功能要求:
(1)正確發(fā)送 HTTP 請求并獲取頁面響應;
(2)準確解析目標數(shù)據(jù)(需考慮 HTML 標簽結(jié)構(gòu)合理性,自行假設(shè)標簽規(guī)則,如標題在標簽中);
(3)將爬取到的結(jié)構(gòu)化數(shù)據(jù)保存到 CSV 文件中;
(4)處理常見異常(如網(wǎng)絡(luò)連接失敗、頁面解析失?。?/p>
5. 提交要求:
(1)寫出完整的 Python 代碼(需添加必要注釋);
(2)簡要說明代碼的核心邏輯和關(guān)鍵步驟。