Hatena::Groupperlmemo

Perlメモ

2008年09月18日 より開始
最新5件(RSS 2.0)
古いモジュールの更新

Plagger(Fedora10)
Plagger(Ubuntu9.04)

CPAN::Mini

Remedie(Ubuntu 9.04、Vine4.9(5α)、Fedora11Preview)
Remedie(Fedora10) 見れたサイトまとめ
編集

2008-10-23

含むアンテナの数を取得

| 含むアンテナの数を取得 - Perlメモ を含むブックマーク はてなブックマーク - 含むアンテナの数を取得 - Perlメモ 含むアンテナの数を取得 - Perlメモ のブックマークコメント

$ sudo cpan Web::Scraper


http://a.hatena.ne.jp/include?http://www.dfnt.net/t.html


use strict;
use warnings;
use Web::Scraper;
use URI;

my $scraper = scraper {  # myh1 という名前で取るスクレイパーを作成
    process 'h1', 'myh1' => 'TEXT';
};

my $uri = new URI('http://a.hatena.ne.jp/include?http://www.dfnt.net/t.html');

my $res = $scraper->scrape($uri);  # 先ほどのスクレイパーに渡す。(スクレイピングされる)

$res->{myh1} =~ /\(([0-9]+)\)/;
print $1 . "\n";

$ perl test.pl

6982

リンク抽出(五十音のページからリンク一覧を作成(2))

| リンク抽出(五十音のページからリンク一覧を作成(2)) - Perlメモ を含むブックマーク はてなブックマーク - リンク抽出(五十音のページからリンク一覧を作成(2)) - Perlメモ リンク抽出(五十音のページからリンク一覧を作成(2)) - Perlメモ のブックマークコメント

アメブロ

use strict;
use warnings;
use LWP;
use HTML::LinkExtor;

my $url="http://hiroyuki12.blog34.fc2.com/blog-entry-227.html";
my $browser = LWP::UserAgent->new;
my $response = $browser->get($url);

my $p = HTML::LinkExtor->new(\&callback,$url);
$p->parse($response->{_content});

sub callback {
    my(my $tag, my %links) = @_;
    my $temp = "@{[%links]}";
    if($temp =~ /entry-/) {
      $temp =~ s/href //g;
      print $temp . "\n";
    }
}

$ perl test.pl > test.txt


urllist.txt 作成

use strict;
use warnings;
use LWP;
use HTML::LinkExtor;

my $url="http://perlmemo.g.hatena.ne.jp/fedora9/20160315/p1";
my $browser = LWP::UserAgent->new;
my $response = $browser->get($url);

my $p = HTML::LinkExtor->new(\&callback,$url);
$p->parse($response->{_content});

sub callback {
    my(my $tag, my %links) = @_;
    my $temp = "@{[%links]}";
    if($temp =~ /b.hatena.ne.jp/) {
      $temp =~ s/href //g;
      print $temp . "\n";
    }
}

$ perl link.pl > urllist.txt



PC Memorandom of augustus: perl でリンクを抽出する

ゲスト