9 Şubat 2013 Cumartesi

Python ile Web sayfalarının karakter kodlamasının tespit edilmesi

Bir Web sayfasının karakter kodlamasını (character encoding) tespit etmenin her durumda işe yarayan bir çözümü yoktur. Özellikle Türkçe karakterler içeren sayfaların karakter kodlamasının doğru tespit edilmesi sık karşılaşılan bir problemdir.

Karakter kodlamasınının doğru tespit tespit edilmesi için birçok yöntem kullanılabilmesine rağmen şahsen ben genellikle kestirme bir yol kullanıyorum. Aşağıda örnek kodunu verdiğim yöntem özetle sayfanın karakter kodlamasını varsayılan olarak UTF-8 kabul ediyor, eğer UTF-8'den Unicode'a çevirme başarısız olursa karakter kodlamasını windows-1254 olarak kabul ediyor.

Peki neden windows-1254? Sayfanın içeriği aslında ne olursa olsun eğer metin Türkçe değilse yalnızca "ð ý þ Ð Ý Þ" karakteri Türkçe koda tablosundaki "ğ ı ş Ğ İ Ü" harfleri ile aynı kodu kullanmaktadırlar ve Türkçe açısından genellikle bir sıkıntı teşkil etmeyeceklerdir.

1 yorum:

  1. Play Casinos that Accept PayPal
    Casinos that accept PayPal can be found at 실시간 바카라사이트 However, there are 엠비 션 주소 no PayPal casinos in 야구 분석 Australia that accept 위닉스 사이트 PayPal. Therefore, 총판 they should be

    YanıtlaSil