downloading images urls from wikiart

发表于 2018-10-26 | 分类于爬虫 | 阅读次数

本文实现的是爬取wikiart上的数据，通过Selenium的方式来实现的动态加载，动态获取图片的urls，同时使用到了BeautifulSoup这个框架来对数据进行处理。Selenium同时需要安装Chrome.exe插件，如果在windows上使用的话。各个平台的情况不一。

阅读全文 »

Using multiple processing to download images based on image URLS

发表于 2018-10-24 | 分类于爬虫 | 阅读次数

本文中实现的是在获取到所有大数据量的图片urls信息之后，如果抓取图片到本地的方式。因为单机单线程的方式效率非常低，因此考虑到这种情况便编写了一个多进程多线程的爬虫方式，可以很快速的以超n倍单线程的速度进行图片爬取。（后来发现Scrapy框架也能够以超高的速度进行下载）。

阅读全文 »

fetch google arts and culture big images from urls

发表于 2018-10-23 | 分类于爬虫 | 阅读次数

从goole arts and culture big images 抓取大图片，超高清图片，因为google arts and culture对一张具有很高艺术价值的图片的显示方式做过前端的分割处理，因此很难爬取到原图的url，这是一个将浏览器的页面设置到非常大然后截图的形式，同样具有非常高的清晰度。唯一的特征是截取之后的图片会占用大量的内存。

阅读全文 »

fetch huaban big image urls

发表于 2018-10-23 | 分类于爬虫 | 阅读次数

本文中实现的是采用selenium框架爬取huaban网站的图片的urls，方便下一步的下载操作。Selenium是一个动态爬取框架，采用模拟浏览器行为，通过模拟人工控制浏览器行为的一个框架，具体需要网站的数据分布呈现一定的规律性才比较方便。Selenium能够处理静态爬虫爬不到的内容，比如js动态加载之后才能显示的图片。

阅读全文 »

python的内存调试

发表于 2018-10-18 | 分类于算法 | 阅读次数

在调试深度学习（deep Learning）的算法运行过程中发现，在测试阶段，随着图片数据的增加，迭代的过程中造成内存不断的增长，最终导致内存爆满，泄露，和程序奔溃的问题，因此通过调试来发现问题，用到了objgraph, gc等插件来发现问题。

阅读全文 »

python实现svm和使用f-score

发表于 2018-10-12 | 分类于算法 | 阅读次数

使用python语言实现对于支持向量机（SVM）特征选择的实现，特征选择算法为f-score,该程序的主要有点是可输入文件囊括了csv,libsvm,arff等在序列分类的机器学习领域常用到的格式，其中csv:最后一列为class,libsvm:第一列为class,arff:通常最后一列为类别，其中csv和libsvm中不存在开头，直接是使用的数据。

阅读全文 »

分田地-网易-python

发表于 2018-08-27 | 分类于算法 | 阅读次数

牛牛和 15 个朋友来玩打土豪分田地的游戏，牛牛决定让你来分田地，地主的田地可以看成是一个矩形，每个位置有一个价值。分割田地的方法是横竖各切三刀，分成 16 份，作为领导干部，牛牛总是会选择其中总价值最小的一份田地，作为牛牛最好的朋友，你希望牛牛取得的田地的价值和尽可能大，你知道这个值最大可以是多少吗？

阅读全文 »