相关文章
如何使用中文维基百科语料
前言
在做自然语言处理时很多时候都会需要中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。其中维基百科会定时将语料库打包发布 https://dumps.wikimedia.org/zhwiki/ ,可以下载最新版本的语料库。而百度百科则需要自己去爬,不过也有人把爬…
建站知识
2024/11/25 9:49:41
离线 维基百科 android,维基百科离线版(Kiwix)
维基百科离线版(Kiwix)是一款专业的电脑网络工具,它是网友制作的一个通过浏览器实现的zim文件阅读器,用户可以直接读取数据库,达到离线阅读的目的,感兴趣的朋友不要错过了,欢迎大家下载体验。 功能介绍 本程序可以说是…
建站知识
2024/11/11 21:54:11
ChineseWiki︱百万中文维基百科词条下载与整理
维基百科中文词条
维基百科开源的中文词条内容,收集了99W+词条,当然比百度少了不少。 有效处理该原始语料的方法主要有两个:1、Wikipedia Extractor;2、gensim的wikicorpus库。 两种处理都比较粗糙,导致: Wikipedia Extractor提取出来的结果,会去掉很多空格与括号里面的…
建站知识
2024/11/14 20:11:52
离线 维基百科 android,iPhone上的离线维基百科(附安装方法)
原帖见此。 但是原帖写的很乱,我刚开始都没看懂什么意思。整理了下,说下我的安装方法(文章中的软件,工具及数据都是发日志时最新的,请自行查找更新的版本,我是在windows下做的): 1、到维基网页下载想安装的维基数据包 http://download.wikimedia.org/backup-index.html 中…
建站知识
2024/11/14 20:11:52
中文维基百科数据爬取与预处理
中文维基百科数据爬取与预处理 前言:阅读本篇博文,您将学会如何使用scrapy框架并基于层次优先队列的网页爬虫以及维基页面的结构与半结构数据自动抽取。项目已经开源于GitHub地址:https://github.com/wjn1996/scrapy_for_zh_wiki,…
建站知识
2024/11/14 20:11:52
阿里云服务器选购指南(图文教程详解)
目录 一、前言 二、基本概念 1.定义 2.部署形式 3.用处 三、主流平台 1.Google 2.AWS 3.华为云 4.腾讯云 5.阿里云 四、云服务器分类 1.云服务器ECS 2.轻量应用服务器 3.GPU云服务器 4.FPGA云服务器 5.无影云桌面 五、选购指南 1.明确需求 2.明确身份 3.明确时间 4.明确教程 一…
建站知识
2024/11/9 1:11:19
Three.js视频教程
Threejs引擎
Threejs是WebGL多款3D引擎之一,threejs相比较babylonjs、cesiumjs等引擎在国内使用的更广泛,中文资料更多,相关招聘更多。所以对于WebGL工程师来说,学习threejs是很有必要的。
视频教程发布地址
案例欣赏
下面一些…
建站知识
2024/11/14 22:06:33