首页 新闻页 爬虫如何爬取腾讯新闻的信息数据

爬虫如何爬取腾讯新闻的信息数据

关键词:河马爬虫代理,爬取腾讯新闻信息数据

今天我们就来看下,爬虫是如何爬取腾讯新闻信息数据的。这里我们主要抓取的内容有,新闻的标题和链接信息。首先我们先打开腾讯新闻页面,然后分析一下页面的相关元素。右键检查,查找我们需要的信息所在的位置。

具体代码如下:

import requests

from bs4 import BeautifulSoup

url = "http://news.qq.com/"

# 请求腾讯新闻的URL,获取其text文本

wbdata = requests.get(url).text

# 对获取到的文本进行解析

soup = BeautifulSoup(wbdata,'lxml')

# 从解析文件中通过select选择器定位指定的元素,返回一个列表

news_titles = soup.select("div.text > em.f14 > a.linkto")

# 对返回的列表进行遍历

for n in news_titles:

# 提取出标题和链接信息

title = n.get_text()

link = n.get("href")

data = {

'标题':title,

'链接':link

}

print(data)

通过上述代码,我们就可以获取到腾讯新闻的标题和链接数据了.河马爬虫代理,数据采集服务服务提供商,为您提供更快,更可靠的服务。