通用网络爬虫(General Purpose Web Crawler)又称全网爬虫(Scalable Web Crawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是“互联网时代”早期出现的传统网络爬虫,它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的重要组成部分...查看全文>>
在数据量比较大时,如果进行limit分页查询,在查询时,越往后,分页查询效率越低。执行limit分页查询耗时对比如下:查看全文>>
操作系统(operating system,简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。操作系统也提供一个让用户与系统交互的操作界面。查看全文>>
CPython是官方的Python解释器,由 C 语言实现,它是Python语言中使用最广泛的解释器。CPython 解释器在执行 Python 代码时,将其编译成字节码,然后通过解释器执行该字节码。查看全文>>
Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)。MapReduce是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。查看全文>>
VMware Workstation是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行; 用户可以在虚拟机上重现服务器、桌面和平板电脑环境,无需重新启动即可跨不同操作系统同时运行应用。在PC上安装VMware Workstation虚拟机软件的详细安装过程如下查看全文>>