本文实现的是爬取wikiart上的数据,通过Selenium的方式来实现的动态加载,动态获取图片的urls,同时使用到了BeautifulSoup这个框架来对数据进行处理。Selenium同时需要安装Chrome.exe插件,如果在windows上使用的话。各个平台的情况不一。
本文中实现的是在获取到所有大数据量的图片urls信息之后,如果抓取图片到本地的方式。因为单机单线程的方式效率非常低,因此考虑到这种情况便编写了一个多进程多线程的爬虫方式,可以很快速的以超n倍单线程的速度进行图片爬取。(后来发现Scrapy框架也能够以超高的速度进行下载)。
从goole arts and culture big images 抓取大图片,超高清图片,因为google arts and culture对一张具有很高艺术价值的图片的显示方式做过前端的分割处理,因此很难爬取到原图的url,这是一个将浏览器的页面设置到非常大然后截图的形式,同样具有非常高的清晰度。唯一的特征是截取之后的图片会占用大量的内存。
本文中实现的是采用selenium框架爬取huaban网站的图片的urls,方便下一步的下载操作。Selenium是一个动态爬取框架,采用模拟浏览器行为,通过模拟人工控制浏览器行为的一个框架,具体需要网站的数据分布呈现一定的规律性才比较方便。Selenium能够处理静态爬虫爬不到的内容,比如js动态加载之后才能显示的图片。
在调试深度学习(deep Learning)的算法运行过程中发现,在测试阶段,随着图片数据的增加,迭代的过程中造成内存不断的增长,最终导致内存爆满,泄露,和程序奔溃的问题,因此通过调试来发现问题,用到了objgraph, gc等插件来发现问题。
使用python语言实现对于支持向量机(SVM)特征选择的实现,特征选择算法为f-score,该程序的主要有点是可输入文件囊括了csv,libsvm,arff等在序列分类的机器学习领域常用到的格式,其中csv:最后一列为class,libsvm:第一列为class,arff:通常最后一列为类别,其中csv和libsvm中不存在开头,直接是使用的数据。
牛牛和 15 个朋友来玩打土豪分田地的游戏,牛牛决定让你来分田地,地主的田地可以看成是一个矩形,每个位置有一个价值。分割田地的方法是横竖各切三刀,分成 16 份,作为领导干部,牛牛总是会选择其中总价值最小的一份田地, 作为牛牛最好的朋友,你希望牛牛取得的田地的价值和尽可能大,你知道这个值最大可以是多少吗?