怎么在Python中利用get_text()方法从html中提取文本-创新互联

这篇文章将为大家详细讲解有关怎么在Python中利用get_text()方法从html中提取文本,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

站在用户的角度思考问题,与客户深入沟通,找到江安网站设计与江安网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:网站设计制作、网站设计、企业官网、英文网站、手机端网站、网站推广、国际域名空间、网络空间、企业邮箱。业务覆盖江安地区。

如下所示:

 
第一条 为促进微博客信息服务健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益,根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。
第二条 在中华人民共和国境内从事微博客信息服务,应当遵守本规定。
本规定所称微博客,是指基于使用者关注机制,主要以简短文字、图片、视频等形式实现信息传播、获取的社交网络服务。
微博客服务提供者是指提供微博客平台服务的主体。微博客服务使用者是指使用微博客平台从事信息发布、互动交流等的行为主体。 微博客信息服务是指提供微博客平台服务及使用微博客平台从事信息发布、传播等行为。 第三条 国家互联网信息办公室负责全国微博客信息服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域内的微博客信息服务的监督管理执法工作。 第四条 微博客服务提供者应当依法取得法律法规规定的相关资质。 向社会公众提供互联网新闻信息服务的,应当依法取得互联网新闻信息服务许可,并在许可范围内开展服务,禁止未经许可或超越许可范围开展互联网新闻信息服务活动。 第五条 微博客服务提供者应当发挥促进经济发展、服务社会大众的积极作用,弘扬社会主义核心价值观,传播先进文化,坚持正确舆论导向,倡导依法上网、文明上网、安全上网。 第六条 微博客服务提供者应当落实信息内容安全管理主体责任,建立健全用户注册、信息发布审核、跟帖评论管理、应急处置、从业人员教育培训等制度及总编辑制度,具有安全可控的技术保障和防范措施,配备与服务规模相适应的管理人员。 微博客服务提供者应当制定平台服务规则,与微博客服务使用者签订服务协议,明确双方权利、义务,要求微博客服务使用者遵守相关法律法规。 第七条 微博客服务提供者应当按照“后台实名、前台自愿”的原则,对微博客服务使用者进行基于组织机构代码、身份证件号码、移动电话号码等方式的真实身份信息认证、定期核验。微博客服务使用者不提供真实身份信息的,微博客服务提供者不得为其提供信息发布服务。 微博客服务提供者应当保障微博客服务使用者的信息安全,不得泄露、篡改、毁损,不得出售或者非法向他人提供。 第八条 微博客服务使用者申请前台实名认证账号的,应当提供与认证信息相符的有效证明材料。 境内具有组织机构特征的微博客服务使用者申请前台实名认证账号的,应当提供组织机构代码证、营业执照等有效证明材料。 境外组织和机构申请前台实名认证账号的,应当提供驻华机构出具的有效证明材料。 第九条 微博客服务提供者应当按照分级分类管理原则,根据微博客服务使用者主体类型、发布内容、关注者数量、信用等级等制定具体管理制度,提供相应服务,并向国家或省、自治区、直辖市互联网信息办公室备案。 第十条 微博客服务提供者应当对申请前台实名认证账号的微博客服务使用者进行认证信息审核,并按照注册地向国家或省、自治区、直辖市互联网信息办公室分类备案。微博客服务使用者提供的证明材料与认证信息不相符的,微博客服务提供者不得为其提供前台实名认证服务。 各级党政机关、企事业单位、人民团体和新闻媒体等组织机构对所开设的前台实名认证账号发布的信息内容及其跟帖评论负有管理责任。微博客服务提供者应当提供管理权限等必要支持。 第十一条 微博客服务提供者应当建立健全辟谣机制,发现微博客服务使用者发布、传播谣言或不实信息,应当主动采取辟谣措施。 第十二条 微博客服务提供者和微博客服务使用者不得利用微博客发布、传播法律法规禁止的信息内容。 微博客服务提供者发现微博客服务使用者发布、传播法律法规禁止的信息内容,应当依法立即停止传输该信息、采取消除等处置措施,保存有关记录,并向有关主管部门报告。 第十三条 微博客服务提供者应用新技术、调整增设具有新闻舆论属性或社会动员能力的应用功能,应当报国家或省、自治区、直辖市互联网信息办公室进行安全评估。 第十四条 微博客服务提供者应当自觉接受社会监督,设置便捷的投诉举报入口,及时处理公众投诉举报。 第十五条 国家鼓励和指导互联网行业组织建立健全微博客行业自律制度和行业准则,推动微博客行业信用等级评价和信用体系建设,督促微博客服务提供者依法提供服务、接受社会监督。 第十六条 微博客服务提供者应当遵守国家相关法律法规规定,配合有关部门开展监督管理执法工作,并提供必要的技术支持和协助。 微博客服务提供者应当记录微博客服务使用者日志信息,保存时间不少于六个月。 第十七条 微博客服务提供者违反本规定的,由有关部门依照相关法律法规处理。 第十八条 本规定自2018年3月20日起施行。

比如这儿有这么一大段带html的字串,想要从中提取文本,首先发现这是一个textarea

我们使用beautifulsoup

def get_content(url):
 resp = urllib.request.urlopen(url)
 html = resp.read()
 bs = BeautifulSoup(html, "html.parser")
 return bs.textarea.get_text()

首先用那段html字符串初始化beautifulsoup对象

然后bs.textarea返回找到的第一个textarea,找到后使用get_text()清空所有html标签元素

之后就会返回干净的文字

关于怎么在Python中利用get_text()方法从html中提取文本就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网站栏目:怎么在Python中利用get_text()方法从html中提取文本-创新互联
URL分享:http://scyanting.com/article/gjsdd.html