对于爬虫中的数据分析,简单的理解就是从一般爬虫得到的响应数据中进一步提取出一些我们需要的特定数据,比如一段文字或者一张图片。

聚焦爬虫:抓取页面中指定的页面内容。
——编码过程
1.指定网址
2.发起请求
3. 获取响应数据
4. 数据分析
5. 持久化存储
数据分析分类:
- 常规的
——BS4
——xpath(***通用)
数据分析原理:
——解析后的本地文本内容会存储在标签之间或者标签对应的属性中。
——1.定位指定标签
——2.提取(解析)标签或标签对应属性中存储的数据值
用于数据分析的正则表达式
正则表达式:
可以看作是通配符的增强版,用于匹配规则指定的字符串。
——预选赛
1. ?:表示前一个字符出现0次或1次
2. *:代表匹配0个或多个前面的字符
3.+:表示匹配前一个出现多次的字符
4. {…}:指定前一个字符出现的次数。例如,{2,6} 表示出现 2 到 6 次,{2,} 表示出现 2 次以上。
注意:以上四种方法都是针对单个字符。如果要定位多个字符,可以使用 () 将目标字符串括起来。
——”或“运算符(…|…)
例如(cat|dog),意思是匹配猫或狗
——字符类 ( )
1、[…]+方括号内的内容表示需要匹配的字符只能从中取出。
2. 可以在方括号中指定字符范围。例如[az]+代表全部小写英文字母; [a-zA-Z]+代表所有英文字母
3. 如果在方括号前添加“^”,则表示需要匹配尖号后面列出的字符以外的字符。如[^0-9]+,代表所有非数字字符
——元字符(Meta-)
正则表达式中的大多数元字符都以反斜杠开头。
d:代表数字字符
w:代表单词字符(所有英文字符、数字、下划线)
s:表示空白字符(包括Tab(制表符)和换行符)
D:代表非数字字符
W:代表非单词字符
S:代表非空白字符
句点.:代表任意字符,但不包括换行符
特殊字符:^ 匹配行首,$ 匹配行尾
例如,^a 只会匹配行首的 a,a$ 只会匹配行尾的 a。
——贪婪与懒惰相配
贪心匹配:正则表达式中的*+{}在匹配字符串时默认会匹配尽可能多的字符。例如,.+ 表示任何单个字符匹配多次。
惰性匹配:.+?表示条件只匹配一次
数据分析bs4
bs4数据分析原理:
——1.实例化一个对象,并将页面源码数据加载到该对象中
——2.通过调用对象中的相关属性或方法来进行标签定位和数据提取
如何实例化一个对象:
——摘自BS4
——对象的实例化:
1.将本地html文档中的数据加载到对象中
fp = open('./.html','r',='utf-8')
汤=(fp,'lxml')
2.将从网上获取的页面源码加载到对象中
= .text
汤=(,'lxml')
用于数据解析的方法和属性(即标签名称):
——soup.:返回html中第一次出现的对应标签
——soup.find(参数):
1.find(''):相当于汤。
2、属性定位:标签可以根据具体属性进行定位。语法如下:
汤.find('div',='')
——soup.(''):返回所有符合要求的标签(列表)
——汤。(参数)
1.('某种选择器(id,class,label...)'),返回一个列表
2. 电平选择器:
(1)
汤.('.tang > ul > li > a')
:> 代表一个级别
(2)
汤。('.tang > ul a')
: 空格表示多个级别
如何获取标签之间的文本数据:
——汤..text //()
text/():可以获取一个标签内的所有文本内容
:只能获取该标签下的直接文本内容
如何获取属性值:
汤。['属性名称']
数据分析xpath
这种方法是最常用、方便、高效的方法。
Xpath解析原理:
——1.实例化一个etree对象,并将需要解析的页面源码数据加载到该对象中。
——2.调用etree对象中的xpath方法,与xpath表达式结合,实现标签定位和内容提取。
如何实例化 etree 对象:来自 lxml etree
——1.将本地HTML文档中的源代码数据加载到etree对象中,如
etree.parse()
——2.从网上获取的源代码数据可以加载到对象中,例如
etree.HTML('')
xpath表达式(级别选择)(返回列表)
——/:放在标签前面,表示从根节点开始定位。放置在标签之间代表层次结构。
——//:放在标签之间表示多级(效果相当于bs4中()方法中的空格),放在单个标签之前表示从任意位置定位(例如'//div'表示定位所有 div 标签)
——属性定位:例如
tree.xpath('//div[@class="song"]')
,表示定位标签名为div,属性名为class,值为song。
——索引定位:例如
'//div[@class="歌曲"]/p[3]'
,表示定位到上述标签下的第三个p标签。 ps:索引从1开始。
——获取文字:
1. /text():获取标签的直接文本内容
2. //text():获取标签下所有文本内容
——获取属性值:
/@属性名
# SEO引流工具
# 可以使用
# 山西推广网站建设公司
# 渝北知名seo公司
# 黄冈seo搜索推广策划
# 食品18年推广营销计划
# 赣州运营营销推广服务费
# 天津地产行业网站建设
# 怀化网站优化企业
# 包包seo的关键描述
# 德州建设工程信息网站
# 行尾
# 肇庆服务网站建设费用
# seo网站首选3火星
# 松原关键词排名技巧
# 涟源网站建设优化
# 短视频品牌推广网站推荐
# 湖南平台seo优化公司
# 澳洲网站建设工作推荐会
# 网站优化目标怎么写模板
# 赣州推广整合营销模式
# 博凯社区seo推广
# 到该
# 深入解析爬虫数据提取
# 聚焦爬虫与正则表达式应用指南
# 象中
# 加载
# 放在
# 多个
# 只会
# 并将
# 正则表达式
# 源代码
# 深入解析爬虫数据提取:聚焦爬虫与正则表达式应用指南
# 英文字母
# 都是
# 文档
# 选择器
# 换行符
# 网上
# 下划线
# 是从
# 英文
相关文章:
上海做网站公司,专业打造企业互联网形象,助力企业腾飞,上海专业网站建设,塑造企业互联网品牌,助力企业飞跃发展
湖州网站设计,打造个性化与功能性并重的 *** 空间,湖州专业网站设计,个性与功能完美融合
西安建网站,打造本地企业线上新门户,助力商业腾飞,西安打造本地企业线上新门户,助推商业飞跃新篇章,西安赋能商业新篇章,本地企业线上新门户助力腾飞
新疆棉事件两年后,最大品牌输家曝光......
武汉网站 *** 公司,助力企业打造高效 *** 平台,武汉专业网站建设,助力企业构建高效 *** 新门户
微信于2011年1月21日正式发布,其发展历程与深远影响解析?
9月1日人去世了朋友圈会消失吗冲上热搜,微信客服这样回应
微信10年超12亿用户,全方位渗透生活,诞生于2011年1月21日
海南网站优化,助力企业在线腾飞的关键策略,海南企业网站优化攻略,开启在线腾飞之门
天津家长看过来!陕师大实力如何?一文讲透报考关键点
阿里云优惠券先领券再下单,误删微信好友如何找回?有妙招
微信如何扫描图片?这些方法助你轻松掌握技能
三亚网站建设,打造企业 *** 新形象,助力发展新篇章,三亚企业 *** 新形象塑造,专业网站建设助力发展新里程
涪陵网站建设,打造本地企业线上新名片,涪陵企业线上形象重塑,专业网站建设服务
单页网站的崛起与创新,单页网站,现代设计与用户体验的革命性突破,单页网站,现代设计与用户体验的革命性突破
南京网站设计公司,助力企业打造专业形象,提升 *** 竞争力,南京专业网站设计,塑造企业 *** 品牌新形象,南京专业网站设计,塑造企业 *** 品牌新形象,助力 *** 竞争力提升
警惕!手机App会员骗局频发,高女士险入转账圈套
网站建设一条龙服务,一站式解决方案,助力企业互联网发展,一站式企业互联网发展解决方案,网站建设一条龙服务
自媒体人素材需求大揭秘!图文易找视频难,版权成关键?
网站运营,策略与实践,打造高效在线平台,高效在线平台打造,网站运营策略与实践解析
如今做微商的越来越多,微信号倒卖现象频发,注册多个微信号有妙招?
iPhone13 的 iOS 16.0 系统下,抖音视频时长权限你知道多少?
洛阳网站建设,助力企业互联网转型升级,洛阳企业互联网转型新引擎,专业网站建设服务
关于微信验证码还款,这些说法错误的题目你会做吗?
深圳SEO关键词排名下降怎么办?这些调整技巧助你逆袭
网站策划技巧,打造成功网站的关键要素,网站策划攻略,揭秘打造高成功率网站的核心要素
你喜欢吃柠檬吗?它对健康有5个好处,这2类人要少吃或不吃
长沙网站 *** 公司,打造个性化 *** 门户,助力企业线上发展,长沙专业网站定制,塑造企业专属 *** 门户,驱动线上增长新引擎
手机搜狗输入法怎么修改皮肤?iPhone无法使用咋解决?
旺旺和旺仔是父子?你不知道的旺旺冷知识。。。
娄底网站建设,助力企业数字化转型,提升品牌影响力,娄底企业数字化转型新动力,网站建设助力品牌影响力升级,娄底企业数字化转型新引擎,网站建设赋能品牌影响力飞跃
甘肃网站建设,助力企业互联网转型,开启数字经济发展新篇章,甘肃网站建设,推动企业互联网转型,引领数字经济新里程,甘肃网站建设,赋能企业互联网转型,领跑数字经济新时代
微信小程序授权管理在哪?这里为您详细解答
镇江网站 *** ,打造专业、高效、个性化的在线品牌形象,镇江专业网站定制,塑造独特品牌风采
网站设计规划,打造高效、专业的 *** 平台,构建高效专业 *** 平台,网站设计规划攻略,高效专业 *** 平台构建攻略,网站设计规划全解析
2025年二建施工管理教材:双代号网络图绘制原则解析
1月12日凰家评测:微信测试新功能,朋友圈内容及图片将被折叠?
杭州网站建设公司,打造个性化企业门户,助力企业互联网化转型,杭州专业网站建设,定制企业门户,推动互联网化升级
旅游网站策划书,打造一站式旅游服务平台的新蓝图,构建一站式旅游服务平台,旅游网站策划书新蓝图,构建一站式旅游服务平台,旅游网站策划书新蓝图
瑞幸“半杯冰”惹众怒!蜜雪冰城捅上第一刀
良好生态是普惠民生福祉,打野热潮却致生态资源危机?
厦门网站设计,打造个性与实用并重的 *** 空间,厦门网站设计,个性化与实用性兼具的 *** 空间定制服务
深度解析,打造个性化网站的利器——做网站的软件全攻略,个性化网站建设指南,软件利器深度解析攻略,个性化网站建设全攻略,深度解析网站 *** 软件利器
微信新功能可语音转文字,速看在哪及如何用?
同一手机如何使用两个微信账号?微信分身方法大揭秘
快过年微信群活跃易卡死、炸群怎么办?这些原因要知道
数字化浪潮下,如何挑选网站建设公司?2025榜单揭晓亮点
党员干部微信使用指南:勿滥用截屏,群里也要讲规矩
GREENBrowser搜索栏:方便调用多引擎,高效查找关键字
#爱奇艺改logo#冲上热搜!原来是生日头像,你想换微信头像吗?
相关栏目:
【
广告资讯90366 】
【
广告推广18483 】
【
广告优化154267 】
【
广告营销46464 】